采集被封ip是件常见的事,尤其是这两年,python爬虫的兴起,采集的门槛已经很低了。
采集防封ip的办法并不多,常见的办法也就下面几个吧。
1、伪装成搜索引擎蜘蛛。
2、降低采集频率。不要使用多线程疯狂采集,基本上稍微大点的网站,都会有这样的限制的,你发送请求太频繁了,任认证都知道你没干什么好事啊,不封你ip封谁呢?
3、使用代理ip 。要使用代理ip才能爬的话,我估计这个十有八九已经处于违法的边缘了。
有人嫌弃搞采集的,认为是白嫖别人的东西,搞得不好就侵权赔钱甚至坐牢。这都是真话!
但是采集的人仍然很多,毕竟有些东西还是可以采集的,有些东西你不采集,你就做不成。
我也搞采集,但我有自己的想法和做法!
有些站、有些内容我是不会去采集的。
比如,那些严格反爬的,这种网站态度很明确,人家不希望自己的内容被采集,已经花了代价做了反爬,你再去爬,人家那肯定会做出动作的,一旦发现你在采集他,他肯定要找你算帐的。
所以有人问我,能不能采集头条、公众号的,我说不能,原因很简单,采集这种站,出问题就要兜着,就会把把自己爬进去。
今天有人问我,采集被封了ip怎么办?
我就说,别采了,换个能采集的再采吧。既然人家能封你ip也就能锁定你的ip,要是侵权厉害了的话,肯定也会通过ip找到你。
当然,有些站封ip并不是因为要维权什么的,只是避免被一些爬虫消耗太多的资源,多进程,疯狂采集,对服务器的消耗是挺大的,有时候直接会导致别人的网站出现502的情况!像我自己就经历过,我把我的一个站展示在4414站长论坛,结果就引来好几波的采集,导致我网站资源消耗严重,打开非常慢,还出现502错误,甚至是服务器商家报警说I/O太高什么的。这没办法,只能写个规则,限制同一个ip的频繁访问啦。
标签: