搞采集怎么避免被封ip?

采集被封ip是件常见的事，尤其是这两年,python爬虫的兴起，采集的门槛已经很低了。

采集防封ip的办法并不多，常见的办法也就下面几个吧。

1、伪装成搜索引擎蜘蛛。

2、降低采集频率。不要使用多线程疯狂采集，基本上稍微大点的网站，都会有这样的限制的，你发送请求太频繁了，任认证都知道你没干什么好事啊，不封你ip封谁呢？

3、使用代理ip 。要使用代理ip才能爬的话，我估计这个十有八九已经处于违法的边缘了。

有人嫌弃搞采集的，认为是白嫖别人的东西，搞得不好就侵权赔钱甚至坐牢。这都是真话！

但是采集的人仍然很多，毕竟有些东西还是可以采集的，有些东西你不采集，你就做不成。

我也搞采集，但我有自己的想法和做法！

有些站、有些内容我是不会去采集的。

比如，那些严格反爬的，这种网站态度很明确，人家不希望自己的内容被采集，已经花了代价做了反爬，你再去爬，人家那肯定会做出动作的，一旦发现你在采集他，他肯定要找你算帐的。

所以有人问我，能不能采集头条、公众号的，我说不能，原因很简单，采集这种站，出问题就要兜着，就会把把自己爬进去。

今天有人问我，采集被封了ip怎么办？

我就说，别采了，换个能采集的再采吧。既然人家能封你ip也就能锁定你的ip，要是侵权厉害了的话，肯定也会通过ip找到你。

当然，有些站封ip并不是因为要维权什么的，只是避免被一些爬虫消耗太多的资源，多进程，疯狂采集，对服务器的消耗是挺大的，有时候直接会导致别人的网站出现502的情况！像我自己就经历过，我把我的一个站展示在4414站长论坛，结果就引来好几波的采集，导致我网站资源消耗严重，打开非常慢，还出现502错误，甚至是服务器商家报警说I/O太高什么的。这没办法，只能写个规则，限制同一个ip的频繁访问啦。