网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 爬虫的本质就是一段自动抓取互联网信息的程序,从网络获取感兴趣的信息,抓取对于我们有价值的信息,爬虫技术是大数据和云计算的基础. 爬虫的实现可认为是模拟浏览器与服务器数据交互,伪造HTTP请求. 使用总览 网页爬取库: 1.urllib模块的urllib.request #基本被取代 2.requests 第三方库 #中小型爬虫开发 #官网:http:/…