scarpy crawl 爬取微信小程序文章

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from wxapp.items import WxappItem

class WxSpider(CrawlSpider):

    name = 'wx'

    allowed_domains = ['wxapp-union.com']

    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (

        Rule(LinkExtractor(allow=r'.*mod=list&catid=2&page=\d+'), follow=True),

        Rule(LinkExtractor(allow=r'.*article-.+\.html'), callback='parse_detail', follow=False),

    )

    def parse_detail(self, response):

        detail_href = response.request.url

        title = response.xpath('//h1[@class="ph"]/text()').get()

        content = response.xpath('//td[@id="article_content"]//text()').getall()

        content = [c.strip() for c in content]

        content = ''.join(content).strip()

        pub_time = response.xpath('//p[@class="authors"]/span/text()').get()

        author = response.xpath('//p[@class="authors"]/a/text()').get()

        item = WxappItem(title=title, content=content, detail_href=detail_href, pub_time=pub_time, author=author)

        yield item

from scrapy.exporters import JsonLinesItemExporter, JsonItemExporter

class WxappPipeline(object):

    def __init__(self):

        """

        爬虫开始的时候执行

        """

        self.fp = open("data.json", 'wb')

        self.exporter = JsonItemExporter(self.fp, ensure_ascii=False, encoding='utf-8')

    def open_spider(self, spider):

        """

        爬虫开始的时候执行

        :param spider:

        :return:

        """

        pass

    def process_item(self, item, spider):

        self.exporter.export_item(item)

        return item

    def close_spider(self, spider):

        """

        爬虫结束的时候执行

        :param spider:

        :return:

        """

        self.fp.close()

import scrapy

class WxappItem(scrapy.Item):

    title = scrapy.Field()

    content = scrapy.Field()

    pub_time = scrapy.Field()

    author = scrapy.Field()

    detail_href = scrapy.Field()

scarpy crawl 爬取微信小程序文章的更多相关文章

scarpy crawl 爬取微信小程序文章（将数据通过异步的方式保存的数据库中）
import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider ...
python爬取微信小程序（实战篇）
python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开一.背景介绍近期有需求需要抓 ...
Python爬取微信小程序（Charles）
Python爬取微信小程序(Charles) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90045204 一.前言最近需要获取微信小 ...
scrapy爬取微信小程序社区教程（crawlspider）
爬取的目标网站是: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1 目的是爬取每一个教程的标题,作者,时间和 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
《吐血整理》高级系列教程-吃透Fiddler抓包教程(34)-Fiddler如何抓取微信小程序的包-上篇
1.简介有些小伙伴或者是童鞋们说小程序抓不到包,该怎么办了???其实苹果手机如果按照宏哥前边的抓取APP包的设置方式设置好了,应该可以轻松就抓到包了.那么安卓手机小程序就比较困难,不是那么友好了.所 ...
如何抓取微信小程序的源码？
一.引言: 在工作中我们会想把别人的代码直接拿过来进行参考,当然这个更多的是前端代码的进行获取. 那么微信小程序的代码怎么样获取呢? 参考 https://blog.csdn.net/qq_4113 ...
微信小程序文章收录
基础篇 03-04 微信登入小程序与后端实现 - 小猿取经 - 博客园我做的小程序 - 小y - 博客园小程序二维码和小程序带参数二维码生成 - Likwo - 博客园 accesstoken 微 ...
Charles抓取微信小程序数据以及其它应用网站数据
为了抓取小程序数据所以使用Charles来抓取,下面介绍下使用方法(mac环境下使用).使用Charles可以非常方便的抓取Http/Https请求.官方dmg下载地址:点击此处下载 Charles抓 ...

随机推荐

MQTT图形化客户端比较
1 MQTT.fx (1)协议支持 TCP(tcp) TLS(tls) (2)特点界面美观,操作便捷不支持WebSocket协议基于java开发支持代理通过Nashorn Engine的JS ...
记一次邮件推送的坑，c#基于smtp使用腾讯企业邮箱发送邮件总是失败的原因
今天在弄企业邮箱推送的东西,原版代码是这样的 public void SendEmail(string title, string content) { try { MailMessage mailM ...
PLSQL导出表结构和数据的三种方式
1.导出表结构和数据方式1.tools->export user objects是导出表结构 tools ->export user object 选择选项,导出.sql文件说明:导出的 ...
eclipse debug 调试找不到资源问题解决
eclipse debug 的时候,如果使用maven bulid,就可能找不到class,这种情况就需要先停止服务,然后配置 Run configurations-Source,然后remove掉D ...
安卓开发之Toolbar返回键
本文前三步演示了为Toolbar添加返回键并实现返回的步骤,第四步给出了设置返回键颜色的方法. 1.在xml布局中引用toolbar: <android.support.design.widge ...
String s=new String("xyz");创建了几个String Object？二者之前的区别是什么？
两个.第一个对象是字符串常量"xyz",第二个对象是new String("xyz")的时候产生的,在堆中分配内存给这个对象,只不过这个对象的内容是指向字符串常 ...
【Struts2】文件上传与下载
一.上传 1.1 Struts2实现步骤浏览器端服务器端 1.2 关于Struts2中文件上传细节: 1.3 示例 jsp文件 Action类 struts.xml文件配置二.下载 2.1 文件 ...
去掉行尾的^M
1. 处理掉行尾的^M 在windos下进行linux内核驱动编写,调试成功后需要集成到内核代码中去,所以会通过虚拟机共享文件夹拷贝到内核对应目录,这时候看源码文件还是没有异常的. 当对该文件进行回车 ...
mmap：内存映射文件
介绍建立一个文件的内存映射将使用操作系统虚拟内存来直接访问文件系统上的数据,而不是使用常规的I/O函数访问数据. 内存映射通常可以提高I/O性能,因为使用内存映射时,不需要对每一个访问都建立一个单独 ...
ffmpeg 命令行杂记
输入mp4文件中的音频每一帧的信息 ffprobe -show_streams -select_streams a -show_format -show_frames .\HYUNDAIMOBIS.m ...

scarpy crawl 爬取微信小程序文章

scarpy crawl 爬取微信小程序文章的更多相关文章

随机推荐

热门专题