浏览数量: 33 作者: 本站编辑 发布时间: 2020-03-09 来源: 本站
网站建设/设计维护时相信大家的网站都有被爬虫爬过,导致许多核心数据都被竞争对手获得了。如果非得要研究的话,爬虫在合适的情况下也是可以被防止的。
我们该怎么防止爬虫呢?知己知彼才能找到合理应对方式,咱们先从低级的爬虫开始聊起。
页面分为动态和静态,静态就是纯html文件,这样的数据不要太好爬,直接获取你的网页地址就好了。我们可以通过request的方式获取到页面源码,再通过bs4库按规则对数据提取。
什么是动态页面呢,有一些公司通过调用接口,然后由js来渲染的叫动态页面。如果接口简单,可以直接调接口获取,但是遇到加密的接口就只能研究其js文件,通过查询其加密方法进行截取,这也是常用手段。
可是还有更简单的办法,无需破译接口,只要让浏览器模仿人的行为即可。目前小编用的多的就是这个方式。
既然要模拟人来浏览网页,就要研究人的特征。主要有以下几个点。
1)浏览速度不快,看的数据也不多
2)浏览器相关参数要有,比如要有cookies, userAgent,以及referce更为重要。