scrapy爬虫系列之四--爬取列表和详情

功能点：如何爬取列表页，并根据列表页获取详情页信息？

爬取网站：东莞阳光政务网

完整代码：https://files.cnblogs.com/files/bookwed/yangguang.zip

主要代码：

yg.py

import scrapy

from yangguang.items import YangguangItem

class YgSpider(scrapy.Spider):

    name = 'yg'

    allowed_domains = ['sun0769.com']

    start_urls = ['http://wz.sun0769.com/index.php/question/report']

    def parse(self, response):

        tr_list = response.xpath("//div[@class='greyframe']/table[2]//tr")

        for tr in tr_list:

            item = YangguangItem()

            item["title"] = tr.xpath("./td[2]/a[2]/text()").extract_first()

            item["href"] = tr.xpath("./td[2]/a[2]/@href").extract_first()

            item["status"] = tr.xpath("./td[3]/span/text()").extract_first()

            item["publish_time"] = tr.xpath("./td[last()]/text()").extract_first()

            if type(item["href"]) == str:

                # 请求详情页

                yield scrapy.Request(

                    item["href"],

                    callback=self.parse_detail,

                    meta={"item": item}

                )

        # 翻页

        next_url = response.xpath("//a[text()='>']/@href").extract_first()

        if next_url is not None:

            yield scrapy.Request(next_url, callback=self.parse)

    # 解析详情页

    def parse_detail(self, response):

        item = response.meta["item"]

        # 获取详情页的内容、图片

        item["content"] = response.xpath("//div[@class='wzy1']/table[2]//tr[1]/td[@class='txt16_3']/text()").extract()

        item["content_image"] = response.xpath("//div[@class='wzy1']/table[2]//tr[1]/td[@class='txt16_3']//img/@src").extract()

        item["content_image"] = ["http://wz.sun0769.com"+i for i in item["content_image"]]

        yield item  # 对返回的数据进行处理

pipelines.py

class YangguangPipeline(object):

    def __init__(self):

        self.f = open('yangguang.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):

        item["content"] = self.process_content(item["content"])

        self.f.write(json.dumps(dict(item), ensure_ascii=False) + ',\n')

        return item

    def process_content(self, content):

        # 对内容项里的\xa0 和 空白字符替换为空

        content = [re.sub(r"\xa0|\s", "", i) for i in content]

        # 对替换过的空字符串去除

        content = [i for i in content if len(i) > 0]

        return content

scrapy爬虫系列之四--爬取列表和详情的更多相关文章

Scrapy爬虫框架之爬取校花网图片
Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中.其最初是为了页面抓取 (更确切来说, 网络抓取 )所设 ...
scrapy爬虫系列之三--爬取图片保存到本地
功能点:如何爬取图片,并保存到本地爬取网站:斗鱼主播完整代码:https://files.cnblogs.com/files/bookwed/Douyu.zip 主要代码: douyu.py im ...
windows下使用python的scrapy爬虫框架，爬取个人博客文章内容信息
scrapy作为流行的python爬虫框架,简单易用,这里简单介绍如何使用该爬虫框架爬取个人博客信息.关于python的安装和scrapy的安装配置请读者自行查阅相关资料,或者也可以关注我后续的内容. ...
Python爬虫系列之爬取美团美食板块商家数据（二）
今天为大家重写一个美团美食板块小爬虫,说不定哪天做旅游攻略的时候也可以用下呢.废话不多说,让我们愉快地开始吧~ 开发工具 Python版本:3.6.4 相关模块: requests模块: argpar ...
Python爬虫系列之爬取美团美食板块商家数据（一）
主要思路目的: 根据输入的城市名,爬取该城市美团美食板块所有商家的数据.数据包括: 店名.评分.评论数量.均价.地址, 并将这些数据存入Excel中. 最后尝试对爬取到的数据做一个简单的分析. 克服 ...
python爬虫系列之爬取多页gif图像
python爬取多页gif图像作者:vpoet mail:vpoet_sir@163.com #coding:utf-8 import urllib import ur ...
2019基于python的网络爬虫系列，爬取糗事百科
**因为糗事百科的URL改变,正则表达式也发生了改变,导致了网上许多的代码不能使用,所以写下了这一篇博客,希望对大家有所帮助,谢谢!** 废话不多说,直接上代码. 为了方便提取数据,我用的是beaut ...
[Python爬虫] scrapy爬虫系列 <一>.安装及入门介绍
前面介绍了很多Selenium基于自动测试的Python爬虫程序,主要利用它的xpath语句,通过分析网页DOM树结构进行爬取内容,同时可以结合Phantomjs模拟浏览器进行鼠标或键盘操作.但是,更 ...
scrapy爬虫系列之开头--scrapy知识点
介绍:Scrapy是一个为了爬取网站数据.提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能够快速抓取.Scrapy使用了Twisted异步网络框架,可以加快我们的下载速度. 0.说明: ...

随机推荐

【转载】关于quartus ii软件中注释乱码问题的解决方法
最近在看Verilog代码,由于我的quartus版本打开他们的文件注释会全部乱码,痛苦万分!从网上找了下原因,解决方法基本没有,不过看到有人提出是编码的问题,立马我就想到一个解决方法,经过实验果然有 ...
bootstrap table使用指南
Bootstrap table是国人开发的一款基于 Bootstrap 的 jQuery 表格插件,通过简单的设置,就可以拥有强大的单选.多选.排序.分页,以及编辑.导出.过滤(扩展)等等的功能. 目 ...
Oracle查询优化--单表查询
--查询所有 select * from emp; select * from emp where comm is null; --错误表达 --select * from emp where com ...
oracle中LAG()和LEAD()以及over (PARTITION BY)
LAG()和LEAD()统计函数可以在一次查询中取出同一字段的前N行的数据和后N行的值.这种操作可以使用对相同表的表连接来实现,不过使用LAG和 LEAD有更高的效率.以下整理的LAG()和LEAD( ...
网站性能测试PV到TPS的转换以及TPS的波动和淘宝性能测试要点
<淘宝性能测试白皮书V0.3> 性能测试的难点不在于测,在于测出的数据和实际的对照关系,以及测试出来的数据对性能的评估(到底是好,还是不好). 淘宝性能测试白皮书,解决了我的4个问题:1. ...
c# 实现javascript中的escape和unescape
我们在JS经常使用escape和unescape,其实C#也可以的. string s = "中文好伟大的"; Console.Write(Microsoft.JScript.Gl ...
win8安装msi出现提示2503 2502的错误代码
安装TortoiseSVN-1.9.5.27581-x64-svn-1.9.5.msi时出现错误,网上查看原因是权限不够造成的解决方法: 解决方法: 1.鼠标移到桌面左下角->右键(或者直接: ...
Linux 内核中 likely 与 unlikely 的宏定义解析
在 2.6 内核中,随处能够见到 likely() 和 unlikely() 的身影,那么为什么要用它们?它们之间有什么差别? 首先要明白: if(likely(value)) 等价于 if(valu ...
Effective C++ Item 15 Provide access to raw resources in resource-managing classes
In last two item, I talk about resource-managing using RAII, now comes to the practical part. Often, ...
Int 型数值存储
1. Int 在计算机中占 4 Byte, 共 32 位, 最大正数为 2147483647, 最小负数为 -2147483648 2. 正数存储在计算机中的形式为原码,最大正数的十六进制形式为 0X ...

scrapy爬虫系列之四--爬取列表和详情

scrapy爬虫系列之四--爬取列表和详情的更多相关文章

随机推荐

热门专题