马锦涛

2020-11-25   阅读量: 558

Python

一些反爬及其应对措施

扫码加入数据分析学习群

( 1)通过user-agent来判断是否是爬虫

  • 解决方案:可以通过伪装请求头中的user-agent来解决。若user-agent被检测到,可以找大量的user-agent,放入列表,然后进行更换

(2)将ip进行封杀。

  • 解决方案:可以通过代理来伪装ip

(3)通过访问频率来判断是否是一个爬虫。

  • 解决方案:可以通过设置请求间隔,和爬取间隔。

(4)当一定时间内的总请求数超过上限,弹出验证码

  • 解决方案:对于简单的验证码图片可以使用tesseract来处理,对于复杂的可以去打码平台。

(5)通过js来获取页面数据。

  • 解决方案:可以使用selenium+phantomjs来加载js获取数据


0.0000 0 0 关注作者 收藏

评论(0)


暂无数据

推荐课程

推荐帖子