一般成熟的网站都会有反爬虫策略,例如限制访问次数,限制访问 IP,动态显示数据等.爬虫和反爬虫就是一直相爱相杀地互相钳制.如果要通过爬虫来获取某些大型网站的数据,那是一件很费时费力的活.小白总遭遇过在趟过各种坑之前就被封 IP 或封账号的打击(呜呜~说的就是我). 不过有一些公司心怀开放互联的态度,友好地给大家提供了 api 接口.这一篇博客将以豆瓣电影为例记录如何站在巨人(api)的肩膀上获取数据.不过豆瓣 api 现在貌似也逐渐收起来了,api key 也停止申请了,且用且珍惜了. >>
1)下载tcpdump工具 tcpdump(dump the traffic on a network)是Linux中强大的网络数据采集分析工具之一,可以将网络中传送的数据包头完全截获下来提供分析.它支持针对网络层.协议.主机.网络或端口的过滤,并提供and.or.not等逻辑语句来帮助你去掉无用的信息.Android系统是基于Linux,可以使用tcpdump来抓取数据包.由于普通用户不能正常执行tcpdump,具备root权限的用户才可以直接执行它来获取网络上的信息,所以使用它的前提条件是: