Python爬虫【四】Scrapy+Cookies池抓取新浪微博

1.设置ROBOTSTXT_OBEY，由true变为false

2.设置DEFAULT_REQUEST_HEADERS，将其改为request headers

3.根据请求链接，发出第一个请求，设置一个start_request方法，并在方法中定义相关的配置,比如在本例中设置搜索的关键字keyword

4.接下来定义一个链接，也就是start_url，本例中改为search_url,其中把base_url定义为该类的全局变量，后面的参数用于翻页设置等

5.根据网页源码中的Form Data，定义一些其他的要求，比如本例中的最大页码数

6.在start_requests方法中，构造请求url的可变参数部分，search_url和keyword部分，用formate()传入

7.因为最大页数为100，接下来需要构造100个请求，利用for循环，page从1-100进行遍历

8.在for循环中把Form Data传过去，mp就是max_page，把mp和page都转换成字符串的形式

9.生成post请求，这里用FormRequest来构造,第一个参数就是构造的url，回调函数是网页解析方法parse_index函数,formdata直接赋值为data

10.借助cookie池，从中随机取出一个cookie赋值给request，所以接下来在middleware里面定义一个中间件，定义一个CookiesMiddleware类

11.在类中改写请求，定义一个process_request方法，在对request进行改写，先要拿到cookies

12.在类中定义一个方法_get_random_cookies用来随机获取一个cookies

13.在_get_random_cookies方法中，用request库的get请求，传入url，这个url是cookie池的微博random的url，请求一次即可获取一个cookies值，http://127.0.0.1/weibo/random

14.然后判断response的返回状态码==200则成功，然后就把网页内容用json解析，

15.获取cookie只需在process_request中调用_get_random_cookies方法，如果获取到了cookie，就把request.cookies正常改写。

16.在process_request中用logger,然后用json的dumps输出成字符串

17.把cookie池的微博random的url配置成可变参数，实现结构化，首先在CookiesMiddleware中定义一个类方法from_crawler，实现把配置的url配置到全局的settings里面

18.利用from_crawler中的crawler对象获取settings里面的相关信息crawler.settings.get('COOKIES_POOL_URL')，然后在settings里面设置COOKIES_POOL_URL = 'http://127.0.0.1/weibo/random'

19.接下来在__init__方法中接收cookies_pool_url，并把它设置为一个全局的变量，request的get方法也可以用全局的cookies_pool_url代替

20.改写之前cookies的开关，改写settings中的DOWNLOADER_MIDDLEWARES，改成我们设置的名字

21.改写parse_index方法，进行网页索引，首先抓取每篇微博，微博最外面的条目可以用id来识别，用contains，第一个参数传入id，第二个参数传入id的值，也就是‘M_’，就可以判断class=c，并且id是以M_开头的

22.抓取下来的列表是个列表，然后对其进行遍历

23.在遍历里面要判断微博是原创还是转发的，判断class=cmt的为转发的,首先拿到原文评论的连接形式，这里用contains选择器，第一个参数是. 表示选择的是当前的文本  第二个参数是用文本特征截取

24.如果是原创微博，就直接获取评论的超链接.这样就分了两种情况对详情页进行了抽取,接下来对微博详情页进行解析yield

25.定义parse_detail方法，url可以通过response.url获得,用xpath获取正文内容content

26.用scrapy提供的调试工具parse进行调试 scrapy parse url -c parse_detail,在用join方法把获取的列表中的内容拼接起来。

27.在items文件里面设置一个item，对提取到的信息进行赋值.引入Item,Field，同时构造一些字段把它构造成item,这些字段就是从网页所提取的内容

28.在weibo.py中引入WeiboItem，并给他实例化一个对象，然后把field一个个赋值

29.在pipelines对拿到的数据进行改写清洗，例如时间改成合理的格式

30.定义mongopipeline，用来将数据存储到MongoDB数据库，首先定义一个初始化的init方法，传入两个参数，一个是数据库连接的uri，一个是数据库连接

31.from_crawler的类方法，这里通过crawler把类的两个参数拿到settings里面相关的配置，这样就可以把上面的两个参数放到settings里面

32.构建open_spider方法，在spider开启时默认调用里面的语句，这样可以在里面做一些相关的初始化操作，比如可以把MongoClient数据库的连接打开。接下来还需要创建MongoDB的连接数据库的连接信息

33.相应的构建一个close_spider方法

34.最重要的构建process_item方法，来对item进行操作，再对数据库进行一下插入操作，在WeiboItem里面定义一个属性叫table_name，再传到process_item方法

35.接下来调用update方法，第一个参数传入查询的字段，此处用id来查询，第二个参数需要传入item，把它转换成字典的形式，第三个参数传入True，意味着如果查询到该内容，就对其更新，如果没有查到就对其插入，即去重

36.在settings中的ITEM_PIPELINES开启调用,最后把mongo_uri和mongo_db这两个参数写入settings

37.针对微博的反爬虫，处理跳转到类似一些封号的页面，构建process_response方法

Python爬虫【四】Scrapy+Cookies池抓取新浪微博的更多相关文章

python爬虫构建代理ip池抓取数据库的示例代码
爬虫的小伙伴,肯定经常遇到ip被封的情况,而现在网络上的代理ip免费的已经很难找了,那么现在就用python的requests库从爬取代理ip,创建一个ip代理池,以备使用. 本代码包括ip的爬取,检 ...
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图（七）
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合 ...
Python爬虫实战：使用Selenium抓取QQ空间好友说说
前面我们接触到的,都是使用requests+BeautifulSoup组合对静态网页进行请求和数据解析,若是JS生成的内容,也介绍了通过寻找API借口来获取数据. 但是有的时候,网页数据由JS生成,A ...
Python爬虫入门教程 45-100 Charles抓取兔儿故事-下载小猪佩奇故事-手机APP爬虫部分
1. Charles抓取兔儿故事背景介绍之前已经安装了Charles,接下来我将用两篇博客简单写一下关于Charles的使用,今天抓取一下兔儿故事里面关于小猪佩奇的故事. 爬虫编写起来核心的重点是分 ...
[Python爬虫] 之八：Selenium +phantomjs抓取微博数据
基本思路:在登录状态下,打开首页,利用高级搜索框输入需要查询的条件,点击搜索链接进行搜索.如果数据有多页,每页数据是20条件,读取页数然后循环页数,对每页数据进行抓取数据. 在实践过程中发现一个问题 ...
Python爬虫入门教程 46-100 Charles抓取手机收音机-手机APP爬虫部分
1. 手机收音机-爬前叨叨今天选了一下,咱盘哪个APP呢,原计划是弄荔枝APP,结果发现竟然没有抓到数据,很遗憾,只能找个没那么圆润的了.搜了一下,找到一个手机收音机下载量也是不错的. 2. 爬虫 ...
Python爬虫之-动态网页数据抓取
什么是AJAX: AJAX(Asynchronouse JavaScript And XML)异步JavaScript和XML.过在后台与服务器进行少量数据交换,Ajax 可以使网页实现异步更新.这意 ...
教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http://www.xiaohuar.com/,让你体验爬取校花的成就感. Scr ...
【转载】教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神
原文:教你分分钟学会用python爬虫框架Scrapy爬取心目中的女神本博文将带领你从入门到精通爬虫框架Scrapy,最终具备爬取任何网页的数据的能力.本文以校花网为例进行爬取,校花网:http:/ ...

随机推荐

log4j。日志输出
log4j.rootLogger = debug , stdout , D , E log4j.appender.stdout = org.apache.log4j.ConsoleAppender l ...
javaBean转为json
一个测试用例 javabean转json @Test @Rollback(false) public void policyQueryTest() throws Exception { // 查询数据 ...
maven install安装工程
在一个项目中,想要运行一个子工程,要先把它的依赖工程导入到maven中. 右键依赖工程--run as--maven install.
Python复习基础篇
4.4 使用列表的一部分 Python切片(切片就是取值的呗) print(players[0:3]) 中括号,冒号隔开,顾头不顾尾. print([:4]) 从开始取还是会顾尾的 pri ...
Laravel中路由怎么写（二）
1.路由命名——给路由起个名字 1.1 基本使用我们使用as关键字来为路由命名: Route::get('/hello/Laravel',['as'=>'academy',function() ...
MacBook PyCharm永久激活
今天下午突然提示到期不能用了,一阵慌慌... 1.下载补丁注意下载后不需要移动补丁位置,下载文件名为:JetbrainsCrack-release-enc.jar 的文件链接:https://pa ...
xxx.app已损坏,打不开.你应该将它移到废纸篓-已解决
到这种情况可能不是你的软件包的问题,可能是macos安全设置问题. 解决办法就是: 1.系统偏好设置... -> 安全性与隐私-->修改为任何来源 2.serria里面没有“任何来源”这一 ...
Linux开机自启配置
1.将自己写好的脚本或命令写入/etc/rc.local文件中.系统会根据该文件来启动所指定的脚本或命令. 例:我有一个脚本:/root/usr/local/scripts/1234.sh 那么直接将 ...
chrome debug 服务端性能
设置 http header 在 chrome 查看服务端性能 \Yii::$app->getResponse()->headers->set('Server-Timing', 'c ...
Cocos Creator iPhoneX适配的解决办法
研究了5个小时的iPhoneX适配. 从catalog,storyboard,safearea等一系列文章中发现.如果我们想完全撑满全屏.那直接建一个storyboard就好了.但撑满全屏后,流海就是 ...

Python爬虫【四】Scrapy+Cookies池抓取新浪微博

Python爬虫【四】Scrapy+Cookies池抓取新浪微博的更多相关文章

随机推荐

热门专题