python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片

上文介绍了爬取知乎问题信息的整个过程,这里介绍下爬取问题下所有答案的内容和图片,大致过程相同,部分核心代码不同.

爬取一个问题的所有内容流程大致如下:

一个问题url
请求url,获取问题下的答案个数(我不需要,因为之前获取问题信息的时候保存了问题的回答个数)
通过答案的接口去获取答案(如果一次获取5个答案,总计100个答案,需要计算的出访问20次答案接口)[答案的接口地址如下图所示]
答案接口返回的内容保存到mysql
提取内容中的图片地址,保存到本地

爬取代码:

从mysql库中查到question的id, 然后直接访问答案接口去获取数据.

answer_template="https://www.zhihu.com/api/v4/questions/%s/answers?include=data[*].is_normal,admin_closed_comment,reward_info,is_collapsed,annotation_action,annotation_detail,collapse_reason,is_sticky,collapsed_by,suggest_edit,comment_count,can_

comment,content,editable_content,voteup_count,reshipment_settings,comment_permission,created_time,updated_time,review_info,relevant_info,question,excerpt,relationship.is_authorized,is_author,voting,is_thanked,is_nothelp;data[*].mark_infos[*].url;dat

a[*].author.follower_count,badge[?(type=best_answerer)].topics&limit=5&offset=%s&sort_by=default"

    def check_login(self, response):

         #从mysql中读取question的信息,来进行爬取

         db = MySQLdb.connect("localhost", "root", "", "crawl", charset='utf8' )

         cursor = db.cursor()

         selectsql="select questionid,answer_num from  zhihu_question where id in ( 251,138,93,233,96,293,47,24,288,151,120,311,214,33) ;"

         try:

             cursor.execute(selectsql)

             results = cursor.fetchall()

             for row in results:

                 questionid = row[0]

                 answer_num = row[1]

                 fornum = answer_num/5 #计算需要访问答案接口的次数

                 print("questionid : "+ str(questionid)+"   answer_Num: "+str(answer_num))

                 for i in range(fornum+1):

                     answer_url = self.answer_template % (str(questionid), str(i*5))

                     yield scrapy.Request(answer_url,callback=self.parse_answer, headers=self.headers)

         except Exception as e:

             print(e)

         db.close()

解析response

parser_anser解析接口里的内容,这里就比较方便了, 因为是json格式的
代码如下:

def parse_answer(self,response):

        #测试时把返回结果写到本地, 然后写pythonmain方法测试,测试方法都在test_code目录下

        #temfn= str(random.randint(0,100))

        #f = open("/var/www/html/scrapy/answer/"+temfn,'wb')

        #f.write(response.body)

        #f.write("------")

        #f.close()

        res=json.loads(response.text)

        #print (res)

        data=res['data']

        # 一次返回多个(默认5个)答案, 需要遍历

        for od in data:

            #print(od)

            item = AnswerItem()

            item['answer_id']=str(od['id'])  #  answer id

            item['question_id']=str(od['question']['id'])

            item['question_title']=od['question']['title']

            item['author_url_token']=od['author']['url_token']

            item['author_name']=od['author']['name']

            item['voteup_count']=str(od['voteup_count'])

            item['comment_count']=str(od["comment_count"])

            item['content']=od['content']

            yield item

            testh = etree.HTML(od['content'])

            itemimg = MyImageItem()

            itemimg['question_answer_id'] = str(od['question']['id'])+"/"+str(od['id'])

            itemimg['image_urls']=testh.xpath("//img/@data-original")

            yield itemimg

成果展示

爬取了4w+个答案和12G图片(个人服务器只有12G空间了~)

爬取收藏夹下的答案内容和图片:

爬取收藏夹下的回答的流程和爬取问题下回答基本流程一样,区别在于:

问题的start_urls为多个,收藏夹是一个一个爬取
问题页面上找到了内容接口,返回json.方便. 收藏夹页面没有找到接口(我没有找到),我是访问每页,然后解析的html.

构造每页的起始地址:

解析html核心代码:

python scrapy爬取知乎问题和收藏夹下所有答案的内容和图片的更多相关文章

使用python scrapy爬取知乎提问信息
前文介绍了python的scrapy爬虫框架和登录知乎的方法. 这里介绍如何爬取知乎的问题信息,并保存到mysql数据库中. 首先,看一下我要爬取哪些内容: 如下图所示,我要爬取一个问题的6个信息: ...
一个简单的python爬虫,爬取知乎
一个简单的python爬虫,爬取知乎主要实现爬取一个收藏夹里所有问题答案下的图片文字信息暂未收录,可自行实现,比图片更简单具体代码里有详细注释,请自行阅读项目源码: # -*- cod ...
scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）
python版本 python2.7 爬取知乎流程: 一 .分析在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www. ...
利用 Scrapy 爬取知乎用户信息
思路:通过获取知乎某个大V的关注列表和被关注列表,查看该大V和其关注用户和被关注用户的详细信息,然后通过层层递归调用,实现获取关注用户和被关注用户的关注列表和被关注列表,最终实现获取大量用户信息. 一 ...
scrapy爬取知乎某个问题下的所有图片
前言: 1.仅仅是想下载图片,别人上传的图片也是没有版权的,下载来可以自己欣赏做手机背景但不商用 2.由于爬虫周期的问题,这个代码写于2019.02.13 1.关于知乎爬虫网上能访问到的理论上都能爬 ...
python scrapy爬取HBS 汉堡南美航运公司柜号信息
下面分享个scrapy的例子利用scrapy爬取HBS 船公司柜号信息 1.前期准备查询提单号下的柜号有哪些,主要是在下面的网站上,输入提单号,然后点击查询 https://www.hamburg ...
Python——Scrapy爬取链家网站所有房源信息
用scrapy爬取链家全国以上房源分类的信息: 路径: items.py # -*- coding: utf-8 -*- # Define here the models for your scrap ...
scrapy爬取知乎问答
登陆参考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time impor ...
Python scrapy爬取带验证码的列表数据
首先所需要的环境:(我用的是Python2的,可以选择python3,具体遇到的问题自行解决,目前我这边几百万的数据量爬取) 环境: Python 2.7.10 Scrapy Scrapy 1.5.0 ...

随机推荐

Java中的静态变量、静态方法问题
由关键字static所定义的变量与方法,分别称为静态变量和静态方法,它们又都被称为静态成员 1.静态方法无需本类的对象也可以调用此方法,调用形式为“类名.方法名”,静态方法常常为其他类提供一些方法而 ...
C# json反序列化对象中嵌套数组 (转载)
看图: 这里可以看到是二层嵌套!!使用C#如何实现?? 思路:使用list集合实现 → 建立类 → list集合 → 微软的 Newtonsoft.Json (一款.NET中开源的Json序列化 ...
c#实战开发：以太坊钱包对接私链（二）
上一篇讲了以太坊私链搭建首先下载Ethereum Wallet 钱包可以直接百度下载如果直接打开它会默认连接公链所以我们要通过命令打开 "F:\Program Files\Ethe ...
Nginx 500错误总结
Nginx 500错误总结 500(服务器内部错误) 服务器遇到错误,无法完成请求. 501(尚未实施) 服务器不具备完成请求的功能.例如,当服务器无法识别请求方法时,服务器可能会返回此代码. 502 ...
javascript之揭示模式
一.该模式优缺点1.优点:该模式可以使脚本语法更加一致,在模块代码底部,它很容易指出哪些函数和变量可以被公开访问,从而改善可读性. 2.缺点:如果一个私有函数引用一个公有函数,公有函数是不能被覆盖的. ...
inheritCombinedParasitic.js
// 寄生组合式继承 // 其基本思路是通过借用构造函数来继承属性,通过原型链的混成形式来继承方法,就是为了不必为了子类型的原型去调用父类型的构造函数 function inheritPrototyp ...
csharp:FTP Client Library using FtpWebRequest or Sockets
https://netftp.codeplex.com/SourceControl/latest http://ftplib.codeplex.com/ https://www.codeproject ...
【代码笔记】Web-HTML-列表
一,效果图. 二,代码. <!DOCTYPE html> <html> <head> <meta charset="utf-8"> ...
pycharm如何新项目如何不默认创建虚拟环境(吐槽)
最近因为工作上的需要,琢磨了一下python,装了pycharm这个号称史上最好的编辑器,还没开始玩,就被整崩溃了. 因为我是刚开始玩这个,写了很多hello world,所以新建项目的时候很多,不知 ...
Python 获取被调用函数名称，所处模块，被调用代码行
获取被调用函数名称,所处模块,被调用代码行 by:授客 QQ:1033553122 module2.py: #!/usr/bin/env python # -*- coding:utf-8 -*- _ ...