当前分类:python>>正文

python批量查询网站文章链接是否收录

来源:互联网   时间:2022年6月15日   编辑

为什么要查询网站哪些文章链接没收录?很简单,做网站,最重要的可能就是文章收录这个事啦,收录的越多,才有可能获得更好的排名和流量撒。

这个工具两个作用。

1、查自己网站的链接哪些没收录

查到之后,可以翻新一下,重新提交给百度。前面我也有写一个python脚本自动推送的,有需要的可以自己去找找。

2、查同行的网站

这个就有点不太道德了,哈哈。

就是查同行的网站看哪些链接没有收录,然后,没收录的话,可以打开里面的内容,参考一下,然后……后面就不需要我说了。这个对于寻找文章素材是个不错的选择啦。

别的就不多说了,我就直接上代码吧。

# -*- coding: UTF-8 -*- 
# @Time: 2021/12/20 0020 18:33
import requests
headers={
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWe\
bKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.110 Safari/537.36'
}

keyurl='https://www.6yhj.com/'
url=r'https://www.baidu.com/s?wd='+keyurl+'&ie=utf-8&tn=88093251_78_hao_pg'
html_text=requests.get(url,headers=headers)
if '抱歉没有找到与' in str(html_text.text):
    print('未收录')
else:
    print('已收录')

以上只是一个示例,只能查询一条链接。如果需要批量查询某个网站的链接,还需要改进!比如如何获取一个网站的全部文章,还有就是查询次数过多的话,如何避免被百度拦截掉。下面我拿自己的网站测试了一下,效果还是可以的,确实能准确把未收录的文章链接记录下来

未收录链接

再一个就是要增加多线程查询,这样可以减少查询时间。

[猜你喜欢]

标签: django