当前分类:python>>正文

python爬虫用urlparse提取链接中的域名

来源:acboy   时间:2022年7月12日   编辑

今天突然要用到这个东西,因为在写一个爬虫的时候,发现一个网站的链接用的全是相对地址,这样一来,获取到的链接就不是完整的,需要在前面在链接上一个域名才行。

比如下面这样的:

这样获取到的链接就是类似于/13/、/14/这样的

必须要经过拼接域名才行。

而且域名域名前面的协议有的是http的有的是https的,所以要处理一下。

想了个办法,还是比较简单的。

源码如下:

from urllib.parse import urlparse

def url_to_domain(url):
    o = urlparse(url)
    domain = o.hostname    
    if 'https' in url:
        return 'https://'+domain
    else:
        return 'http://'+domain

像上面这样写就行了。

第一个导入的包,是python库中自带的,不需要另外安装。

我上面的源码已经进行了https以及http的拼接,如果只需要域名,也只要稍微改一下就行了。

经过测试,是没有任何问题的。

当然,除了上面的方法,还可以采用正则表达式的方式。,可以自己研究一下。

[猜你喜欢]

标签: python python爬虫