python爬虫用urlparse提取链接中的域名

来源：acboy 更新时间：2022年7月12日

今天突然要用到这个东西，因为在写一个爬虫的时候，发现一个网站的链接用的全是相对地址，这样一来，获取到的链接就不是完整的，需要在前面在链接上一个域名才行。

比如下面这样的：

这样获取到的链接就是类似于/13/、/14/这样的

必须要经过拼接域名才行。

而且域名域名前面的协议有的是http的有的是https的，所以要处理一下。

想了个办法，还是比较简单的。

源码如下：

from urllib.parse import urlparse

def url_to_domain(url):
    o = urlparse(url)
    domain = o.hostname    
    if 'https' in url:
        return 'https://'+domain
    else:
        return 'http://'+domain

像上面这样写就行了。

第一个导入的包，是python库中自带的，不需要另外安装。

我上面的源码已经进行了https以及http的拼接，如果只需要域名，也只要稍微改一下就行了。

经过测试，是没有任何问题的。

当然，除了上面的方法，还可以采用正则表达式的方式。，可以自己研究一下。

[猜你喜欢]

标签：