python爬虫技术的选择

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Helvetica }
span.s1 { }

　　本篇文章不是入门帖，需要对python和爬虫领域有所了解。

爬虫又是另外一个领域，涉及的知识点比较多，不仅要熟悉web开发，有时候还涉及机器学习等知识，不过在python里一切变的简单，有许多第三方库来帮助我们实现。使用python编写爬虫首先要选择合适的抓取模块，最简单的功能就是能发送和处理请求，下面就介绍几个常用的抓取的方式。

一、python 自带的urlib2和urlib或者第三方模块requests　

这种方案适合简单的页面爬虫，比如爬取博客园推荐文章。

　　 urllib2和urllib是python自带模块可用来发送处理请求，虽然比较灵活但API易用性较差，所以一般都要进行二次封装，我曾经也进行过封装，最后发现自己封装出来的模块无限趋近于非常成熟的requests库，所以还是直接使用requests吧，当然requests只发送和接受请求，对于页面分析还要配合lxml或beautifulsoup等第三方库进行。高级点的爬虫不仅仅是发送和处理请求，还需要处理异常，请求速度控制等问题，这就需要我们写额外的代码去控制，当然我们可以自己写只是时间问题，但完全没有必要，接下来我会介绍第二种方案。

　　 二、scrapy框架　　

scrapy是爬虫领取的佼佼者，目前我做的项目无论复杂与否，都采用scrapy进行，对于请求调度，异常处理都已经封装好了，而且有第三方的scrapy-redis还可以支持分布式，我们把关注点放在更重要的页面分析和规则编写上，代码可以参考我github上的例子。

scrapy抓取虎嗅网文章: https://github.com/world1234567/scrapy_for_huxiu

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Helvetica }
span.s1 { }

　　三、python selenium

这种方式我称为终极必杀器，一般是实在没办法的时候才用，以前我在利用某家搜索引擎抓取文章时，该搜索引擎采用的比较高难度的反爬虫机制而且不断变化让人找不到规律，最典型的特点就是cookie会随机隐藏到某个页面js和图片中，解决方案就是模拟浏览器的行为加载所有js等静态资源文件，如果自己写个浏览器取解析太扯蛋了，如果chrome浏览器能开放接口，通过chrome的加载方式获取页面的内容就好了，这就是selenium了，selenium加上随机等待时间可以模拟出和人非常类似的操作行为，缺点就是速度较慢，但是一般爬虫对抓取速度要求不高，重要的是稳定性，这种方式对于抓取反爬虫机制做的好的大型网站比较适用。

总结，对于大部分爬虫需求直接用scrapy解决，如果解决不了再采用第一种或第三种方案，就这么简单。

p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Helvetica }
span.s1 { }
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Helvetica }
span.s1 { }
span.Apple-tab-span { white-space: pre }
p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; font: 14.0px Helvetica }
span.s1 { }

python爬虫技术的选择的更多相关文章

《Python爬虫技术：深入理解原理、技术与开发》已经出版，送Python基础视频课程
好消息,<Python爬虫技术:深入理解原理.技术与开发>已经出版!!! JetBrains官方推荐图书!JetBrains官大中华区市场部经理赵磊作序!送Python基础视频课程!J ...
零基础如何学Python爬虫技术？
在作者学习的众多编程技能中,爬虫技能无疑是最让作者着迷的.与自己闭关造轮子不同,爬虫的感觉是与别人博弈,一个在不停的构建反爬虫规则,一个在不停的破译规则. 如何入门爬虫?零基础如何学爬虫技术?那前 ...
Python爬虫技术：爬虫时如何知道是否代理ip伪装成功？
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. python爬虫时如何知道是否代理ip伪装成功: 有时候我们的爬虫程序添加了 ...
【爬虫】让我沉醉的python爬虫技术
今天终于有机会好好学习我一直梦寐以求想掌握的爬虫技术,其实爬虫技术涉及的面不多,我力求做到精通写在简历上. 1.工程分析流程 (1)需求分析 ①目标网站:②抓取内容:③存储格式. (2)项目实施分析 ...
Python爬虫技术(从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类—Jason niu
网上教程太啰嗦,本人最讨厌一大堆没用的废话,直接上,就是干! 网络爬虫?非监督学习? 只有两步,只有两个步骤? Are you kidding me? Are you ok? 来吧,follow me ...
Python爬虫和情感分析简介
摘要这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果. 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着 ...
在我的新书里，尝试着用股票案例讲述Python爬虫大数据可视化等知识
我的新书,<基于股票大数据分析的Python入门实战>,预计将于2019年底在清华出版社出版. 如果大家对大数据分析有兴趣,又想学习Python,这本书是一本不错的选择.从知识体系上来看, ...
golang学习笔记17 爬虫技术路线图，python，java，nodejs，go语言，scrapy主流框架介绍
golang学习笔记17 爬虫技术路线图,python,java,nodejs,go语言,scrapy主流框架介绍 go语言爬虫框架:gocolly/colly,goquery,colly,chrom ...
企业级Python开发大佬利用网络爬虫技术实现自动发送天气预告邮件
前天小编带大家利用Python网络爬虫采集了天气网的实时信息,今天小编带大家更进一步,将采集到的天气信息直接发送到邮箱,带大家一起嗨~~拓展来说,这个功能放在企业级角度来看,只要我们拥有客户的邮箱,之 ...

随机推荐

canvas游戏之贪食蛇
直接上效果图: 这个贪食蛇关键地方在于数组,它的长度增加其实是数组的增长,就是数组的向前追加等操作,核心就是数组的操作. 完整代码: <!DOCTYPE html> <html> ...
Ext.util.TaskRunner定时执行任务
Ext.util.TaskRunner能够提供多线程的定时任务,该类提供了对多线程任务的管理,可以通过Ext.TaskManager来创建Ext.util.TaskRunner的一个实例,也可以自行创 ...
引入CSS文件的@import与link的权重分析
我很少在CSS用到@import这个标签,最近看到一句话“link方式的样式的权重高于@import的权重”,感觉不太对,@import只是一个引入外部文件而已,怎么会有高于link的权重呢?于是我 ...
javascript中的错误处理机制
× 目录 [1]对象 [2]类型 [3]事件[4]throw[5]try[6]常见错误前面的话错误处理对于web应用程序开发至关重要,不能提前预测到可能发生的错误,不能提前采取恢复策略,可能导致较 ...
mysqll底层分享（一）：MySQL索引背后的数据结构及算法原理
http://www.uml.org.cn/sjjm/201107145.asp#nav-2 http://tech.it168.com/a2011/0711/1216/000001216087_al ...
哈夫曼树(三)之 Java详解
前面分别通过C和C++实现了哈夫曼树,本章给出哈夫曼树的java版本. 目录 1. 哈夫曼树的介绍 2. 哈夫曼树的图文解析 3. 哈夫曼树的基本操作 4. 哈夫曼树的完整源码转载请注明出处:htt ...
JavaWeb:实现文件上传
JavaWeb:实现文件上传理解文件上传: 1.上传文件就是把客户端的文件发送给服务器端. 2.HTTP响应的正文部分最常见的是HTML文档,但是也可以是其他任意格式的数据,如图片和声音文件中的数据 ...
Android基于mAppWidget实现手绘地图（十一）–移动地图到某个坐标
你可以使用以下几个方法: MapWidget.scrollMapTo(android.location.Location location); MapWidget.scrollMapTo(androi ...
LESS-Middleware：Node.js 和 LESS 的完美搭配
LESS 是一个编写 CSS 的很好的方式 ,让你可以使用变量,嵌套规则,混入以及其它许多有用的功能,它可以帮助您更好地组织你的 CSS 代码. 最近我一直在研究 Node.js ,并想用 less- ...
原生js写的贪吃蛇网页版游戏特效
<meta http-equiv="Content-Type" content="text/html; charset=utf-8"> <bo ...

python爬虫技术的选择

python爬虫技术的选择的更多相关文章

随机推荐

热门专题