所谓爬虫,首先要通过各种手段爬取到想要站点的数据. web2.0之后,各种网络站点类型越来越多,早期的站点多为静态页面[html .htm],后来逐步加入 jsp.asp,等交互性强的页面.再后来随着js的兴起,也处于站点的美观和易于维护,越来越多的ajax异步请求方式数据站点.[不扯犊子了 ,马上上示例] 参与工作时间不是很长,但工作期间一直做不同的爬虫项目.对常见的页面数据获取,有一些简单的认识. 接触到的页面分为三类. A 静态页面(数据在源码中直接可以获取到) B数据在基源码中没有,携…