python爬虫：如何避免requests重复发送请求

如何避免requests重复发送请求？

有时候使用requests发送请求时，网站故障或者其他原因导致请求失败，这时候requests就会重复发送请求，导致爬取到重复的内容。如何避免这种情况呢？

可以试试下面这种办法：

import requests

from cachecontrol import CacheControl

session = requests.session()

cached_session = CacheControl(session)

response = cached_session.get('https://www.example.com')

解释下这段代码

from cachecontrol import CacheControl

使用这个之前需要安装 pip install CacheControl才行

这行代码导入了 CacheControl 类，它是一个用于实现 HTTP 缓存的库。

session = requests.session()

这行代码创建了一个 requests.Session 对象。Session 对象可以在多个请求之间保持一些参数，例如 cookies、headers 等。这样可以提高性能，因为在同一个会话中的请求可以复用底层的 TCP 连接。

cached_session = CacheControl(session)

这行代码使用 CacheControl 类包装了 session 对象。这样，cached_session 就可以使用 HTTP 缓存策略来管理请求了。当你使用 cached_session 发送请求时，如果缓存中有可用的响应，它将直接从缓存中获取，而不是重新发送请求。

response = cached_session.get('https://www.example.com')

这行代码使用 cached_session 发送一个 GET 请求到 "https://www.example.com"。如果缓存中有可用的响应，它将直接从缓存中获取，否则将发送一个新的请求。response 变量将包含请求的响应。