Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy

爬前叨叨

全站爬虫有时候做起来其实比较容易，因为规则相对容易建立起来，只需要做好反爬就可以了，今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说，使用scrapy确实用了牛刀，不过毕竟本博客这个系列到这个阶段需要不断使用scrapy进行过度，so，我写了一会就写完了。

你第一步找一个爬取种子，算作爬虫入口

https://www.zhihu.com/people/zhang-jia-wei/following

我们需要的信息如下，所有的框图都是我们需要的信息。

获取用户关注名单

通过如下代码获取网页返回数据，会发现数据是由HTML+JSON拼接而成，增加了很多解析成本

class ZhihuSpider(scrapy.Spider):

    name = 'Zhihu'

    allowed_domains = ['www.zhihu.com']

    start_urls = ['https://www.zhihu.com/people/zhang-jia-wei/following']

    def parse(self, response):

        all_data = response.body_as_unicode()

        print(all_data)

首先配置一下基本的环境，比如间隔秒数，爬取的UA，是否存储cookies,启用随机UA的中间件DOWNLOADER_MIDDLEWARES

middlewares.py 文件

from zhihu.settings import USER_AGENT_LIST # 导入中间件

import random

class RandomUserAgentMiddleware(object):

    def process_request(self, request, spider):

        rand_use  = random.choice(USER_AGENT_LIST)

        if rand_use:

            request.headers.setdefault('User-Agent', rand_use)

setting.py 文件

BOT_NAME = 'zhihu'

SPIDER_MODULES = ['zhihu.spiders']

NEWSPIDER_MODULE = 'zhihu.spiders'

USER_AGENT_LIST=[  # 可以写多个，测试用，写了一个

    "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"

]

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# See also autothrottle settings and docs

DOWNLOAD_DELAY = 2

# Disable cookies (enabled by default)

COOKIES_ENABLED = False

# Override the default request headers:

DEFAULT_REQUEST_HEADERS = {

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

  'Accept-Language': 'en',

}

# See https://doc.scrapy.org/en/latest/topics/downloader-middleware.html

DOWNLOADER_MIDDLEWARES = {

    'zhihu.middlewares.RandomUserAgentMiddleware': 400,

}

# Configure item pipelines

# See https://doc.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'zhihu.pipelines.ZhihuPipeline': 300,

}

主要爬取函数,内容说明

start_requests 用来处理首次爬取请求，作为程序入口
下面的代码主要处理了2种情况，一种是HTML部分，一种是JSON部分
JSON部分使用re模块进行匹配，在通过json模块格式化
extract_first() 获取xpath匹配数组的第一项
dont_filter=False scrapy URL去重

 # 起始位置

    def start_requests(self):

        for url in self.start_urls:

            yield scrapy.Request(url.format("zhang-jia-wei"), callback=self.parse)

    def parse(self, response):

        print("正在获取 {} 信息".format(response.url))

        all_data = response.body_as_unicode()

        select = Selector(response)

        # 所有知乎用户都具备的信息

        username = select.xpath("//span[@class='ProfileHeader-name']/text()").extract_first()  		# 获取用户昵称

        sex = select.xpath("//div[@class='ProfileHeader-iconWrapper']/svg/@class").extract()

        if len(sex) > 0:

            sex = 1 if str(sex[0]).find("male") else 0

        else:

            sex = -1

        answers = select.xpath("//li[@aria-controls='Profile-answers']/a/span/text()").extract_first()

        asks = select.xpath("//li[@aria-controls='Profile-asks']/a/span/text()").extract_first()

        posts = select.xpath("//li[@aria-controls='Profile-posts']/a/span/text()").extract_first()

        columns = select.xpath("//li[@aria-controls='Profile-columns']/a/span/text()").extract_first()

        pins = select.xpath("//li[@aria-controls='Profile-pins']/a/span/text()").extract_first()

        # 用户有可能设置了隐私，必须登录之后看到，或者记录cookie！

        follwers = select.xpath("//strong[@class='NumberBoard-itemValue']/@title").extract()

        item = ZhihuItem()

        item["username"] = username

        item["sex"] = sex

        item["answers"] = answers

        item["asks"] = asks

        item["posts"] = posts

        item["columns"] = columns

        item["pins"] = pins

        item["follwering"] = follwers[0] if len(follwers) > 0 else 0

        item["follwers"] = follwers[1] if len(follwers) > 0 else 0

        yield item

        # 获取第一页关注者列表

        pattern = re.compile('<script id=\"js-initialData\" type=\"text/json\">(.*?)<\/script>')

        json_data = pattern.search(all_data).group(1)

        if json_data:

            users = json.loads(json_data)["initialState"]["entities"]["users"]

        for user in users:

            yield scrapy.Request(self.start_urls[0].format(user),callback=self.parse, dont_filter=False)

在获取数据的时候，我绕开了一部分数据，这部分数据可以通过正则表达式去匹配。

数据存储，采用的依旧是mongodb

Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy的更多相关文章

Python爬虫入门教程 34-100 掘金网全站用户爬虫 scrapy
爬前叨叨已经编写了33篇爬虫文章了,如果你按着一个个的实现,你的爬虫技术已经入门,从今天开始慢慢的就要写一些有分析价值的数据了,今天我选了一个<掘金网>,我们去爬取一下他的全站用户数据. ...
Python爬虫入门教程 27-100 微医挂号网专家团队数据抓取pyspider
1. 微医挂号网专家团队数据----写在前面今天尝试使用一个新的爬虫库进行数据的爬取,这个库叫做pyspider,国人开发的,当然支持一下. github地址: https://github.com ...
Python爬虫入门教程 24-100 微医挂号网医生数据抓取
1. 写在前面今天要抓取的一个网站叫做微医网站,地址为 https://www.guahao.com ,我们将通过python3爬虫抓取这个网址,然后数据存储到CSV里面,为后面的一些分析类的教程做 ...
Python爬虫入门教程 43-100 百思不得姐APP数据-手机APP爬虫部分
1. Python爬虫入门教程爬取背景 2019年1月10日深夜,打开了百思不得姐APP,想了一下是否可以爬呢?不自觉的安装到了夜神模拟器里面.这个APP还是比较有名和有意思的. 下面是百思不得姐的 ...
Python爬虫入门教程 37-100 云沃客项目外包网数据爬虫 scrapy
爬前叨叨 2019年开始了,今年计划写一整年的博客呢~,第一篇博客写一下一个外包网站的爬虫,万一你从这个外包网站弄点外快呢,呵呵哒数据分析官方网址为 https://www.clouderwor ...
Python爬虫入门教程 48-100 使用mitmdump抓取手机惠农APP-手机APP爬虫部分
1. 爬取前的分析 mitmdump是mitmproxy的命令行接口,比Fiddler.Charles等工具方便的地方是它可以对接Python脚本. 有了它我们可以不用手动截获和分析HTTP请求和响应 ...
Python爬虫入门教程 36-100 酷安网全站应用爬虫 scrapy
爬前叨叨 2018年就要结束了,还有4天,就要开始写2019年的教程了,没啥感动的,一年就这么过去了,今天要爬取一个网站叫做酷安,是一个应用商店,大家可以尝试从手机APP爬取,不过爬取APP的博客,我 ...
Python基础入门教程
Python基础入门教程 Python基础教程 Python 简介 Python环境搭建 Python 基础语法 Python 变量类型 Python 运算符 Python 条件语句 Python 循 ...
Python爬虫入门教程 20-100 慕课网免费课程抓取
写在前面美好的一天又开始了,今天咱继续爬取IT在线教育类网站,慕课网,这个平台的数据量并不是很多,所以爬取起来还是比较简单的准备爬取打开我们要爬取的页面,寻找分页点和查看是否是异步加载的数据. ...

随机推荐

解决使用redis作为session缓存报错 Error: no such key 的问题
spring的issue https://github.com/spring-projects/spring-session/issues/954 原答案是 Updated my codes to 2 ...
flexbuilder 开发工具
https://www.cnblogs.com/xuling/archive/2010/02/15/1668580.html
python基础day1
一．python介绍 1.1简介 Python (英国发音:/ˈpaɪθən/ 美国发音:/ˈpaɪθɑːn/), 是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum ...
mysql 分库分表转
分表是分散数据库压力的好方法. 分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库. 当然,首先要知道什么情况下,才需要分表.个人觉得单表记录条数达到百万到千万 ...
JAVA基础复习与总结<六> 数组_容器_泛型
数组的常用方法 java.util.Arrays 类能方便地操作数组,它提供的所有方法都是静态的. 具有以下功能: 给数组赋值:通过 fill 方法. 对数组排序:通过 sort 方法,按升序. 比较 ...
如何优化UI布局？
Android系统中填充布局是一个开销巨大的过程,每一个额外的嵌套布局和包含的View,都直接影响到应用程序的性能和响应能力.为了使应用程序流畅地运行和快速地响应,重要的是尽可能地保持布局的简单和避免 ...
CentOS，crontab的学习、使用、问题解决记录
参考:http://blog.csdn.net/luanwpp/article/details/7490871 参考: http://mp.weixin.qq.com/s?src=11&tim ...
VB中StdPicture尺寸(Width,Height)转像素单位
首先获得一个图片对象 Dim spic As StdPicture Set spic = LoadPicture("d:\0.bmp") '从文件获得 Set spic = Cli ...
toLatin1 qt
Latin1是ISO-8859-1的别名,有些环境下写作Latin-1.ISO-8859-1ISO-8859-1编码是单字节编码,向下兼容ASCII,其编码范围是0x00-0xFF,0x00-0x7F ...
phantomjs api文档
phantomjs实现了一个无界面的webkit浏览器.虽然没有界面,但dom渲染.js运行.网络访问.canvas/svg绘制等功能都很完备,在页面抓取.页面输出.自动化测试等方面有广泛的应用. 详 ...

Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy

爬前叨叨

获取用户关注名单

Python爬虫入门教程 35-100 知乎网全站用户爬虫 scrapy的更多相关文章

随机推荐

热门专题