今天突然要用到这个东西,因为在写一个爬虫的时候,发现一个网站的链接用的全是相对地址,这样一来,获取到的链接就不是完整的,需要在前面在链接上一个域名才行。
比如下面这样的:
这样获取到的链接就是类似于/13/、/14/这样的
必须要经过拼接域名才行。
而且域名域名前面的协议有的是http的有的是https的,所以要处理一下。
想了个办法,还是比较简单的。
源码如下:
from urllib.parse import urlparse def url_to_domain(url): o = urlparse(url) domain = o.hostname if 'https' in url: return 'https://'+domain else: return 'http://'+domain
像上面这样写就行了。
第一个导入的包,是python库中自带的,不需要另外安装。
我上面的源码已经进行了https以及http的拼接,如果只需要域名,也只要稍微改一下就行了。
经过测试,是没有任何问题的。
当然,除了上面的方法,还可以采用正则表达式的方式。,可以自己研究一下。
标签: