scarpy crawl 爬取微信小程序文章（将数据通过异步的方式保存的数据库中）

import scrapy

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from wxapp.items import WxappItem

class WxSpider(CrawlSpider):

    name = 'wx'

    allowed_domains = ['wxapp-union.com']

    start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (

        Rule(LinkExtractor(allow=r'.*mod=list&catid=2&page=\d+'), follow=True),

        Rule(LinkExtractor(allow=r'.*article-.+\.html'), callback='parse_detail', follow=False),

    )

    def parse_detail(self, response):

        detail_href = response.request.url

        title = response.xpath('//h1[@class="ph"]/text()').get()

        content = response.xpath('//td[@id="article_content"]//text()').getall()

        content = [c.strip() for c in content]

        content = ''.join(content).strip()

        pub_time = response.xpath('//p[@class="authors"]/span/text()').get()

        author = response.xpath('//p[@class="authors"]/a/text()').get()

        item = WxappItem(title=title, content=content, detail_href=detail_href, pub_time=pub_time, author=author)

        yield item

items：

class WxAppItem(scrapy.Item):

    title = scrapy.Field()

    pub_time = scrapy.Field()

    content = scrapy.Field()

    summary = scrapy.Field()

    article_url = scrapy.Field()

    read_count = scrapy.Field()

pipline：

import pymysql

from pymysql import cursors

from twisted.enterprise import adbapi

class WxAppPipeline(object):

    def __init__(self):

        db_params = {

            'host': '127.0.0.1',

            'port': 3306,

            'user': 'root',

            'password': '',

            'database': 'wxapp',

            'charset': 'utf8',

            'cursorclass': cursors.DictCursor  # 指定游标类

        }

        # 定义数据库连接池

        self.db_pool = adbapi.ConnectionPool('pymysql', **db_params)

        self._sql = None

    def process_item(self, item, spider):

        defer = self.db_pool.runInteraction(self.insert_item, item)

        defer.addErrback(self.handle_error, item, spider)

        return item

    def insert_item(self, cursor, item):

        print('kkkkkkkkkkkkkkkkkkkk')

        cursor.execute(self.sql, (item['title'], item['content'], item['summary'], item['read_count'], item['pub_time'], item['article_url']))

    def handle_error(self, error, item, spider):

        print('=' * 10 + 'error' + '=' * 10)

        print(error)

    @property

    def sql(self):

        if not self._sql:

            self._sql = """

               INSERT INTO article(id, title, content, summary, read_count, pub_time, article_url) VALUES (null, %s, %s, %s, %s, %s, %s);

               """

            return self._sql

        return self._sql

scarpy crawl 爬取微信小程序文章（将数据通过异步的方式保存的数据库中）的更多相关文章

scarpy crawl 爬取微信小程序文章
import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider ...
python爬取微信小程序（实战篇）
python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开一.背景介绍近期有需求需要抓 ...
Python爬取微信小程序（Charles）
Python爬取微信小程序(Charles) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90045204 一.前言最近需要获取微信小 ...
scrapy爬取微信小程序社区教程（crawlspider）
爬取的目标网站是: http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1 目的是爬取每一个教程的标题,作者,时间和 ...
使用Python爬取微信公众号文章并保存为PDF文件(解决图片不显示的问题)
前言第一次写博客,主要内容是爬取微信公众号的文章,将文章以PDF格式保存在本地. 爬取微信公众号文章(使用wechatsogou) 1.安装 pip install wechatsogou --up ...
微信小程序的ajax数据请求wx.request
微信小程序的ajax数据请求,很多同学找不到api在哪个位置,这里单独把小程序的ajax请求给列出来,微信小程序的请求就是wx.request这个api,wx.request(一些对象参数),微信小程 ...
《吐血整理》高级系列教程-吃透Fiddler抓包教程(34)-Fiddler如何抓取微信小程序的包-上篇
1.简介有些小伙伴或者是童鞋们说小程序抓不到包,该怎么办了???其实苹果手机如果按照宏哥前边的抓取APP包的设置方式设置好了,应该可以轻松就抓到包了.那么安卓手机小程序就比较困难,不是那么友好了.所 ...
如何抓取微信小程序的源码？
一.引言: 在工作中我们会想把别人的代码直接拿过来进行参考,当然这个更多的是前端代码的进行获取. 那么微信小程序的代码怎么样获取呢? 参考 https://blog.csdn.net/qq_4113 ...
微信小程序文章收录
基础篇 03-04 微信登入小程序与后端实现 - 小猿取经 - 博客园我做的小程序 - 小y - 博客园小程序二维码和小程序带参数二维码生成 - Likwo - 博客园 accesstoken 微 ...

随机推荐

C# Math.Round()的银行家算法
可能很多人都跟我一样,都只知道Math.Round()是C#中用来做四舍五入,保留指定小数位的但实际上它并不是真正的四舍五入,而是银行家算法的四舍六入五取偶事实上这也是IEEE的规范,因此所有符合 ...
Django2.0 应用 Xadmin 报错二
以上错误是运行点击添加数据等报异常,全是度年解决,并记录解决方法 1.报异常 ‘某个字段类型 ‘ object has no attribute ‘rel‘,点击报异常的地方,把.rel 修改为.re ...
DPDK latencystats库使用方案
初始化注意务必调用 rte_metrics_init /* init latency stats */ /* @TODO should we remove this in product env? ...
plsql developer字符集和oracle字符集不一致的解决方法(转）
如果oracle安装选择的字符集与PLSQL Developer的字符集不同,则打开 PLSQL Developer时会提示字符不一致可能造成问题: 定位到注册表的以下位置: HKEY_LOCAL_M ...
Maven错误：警告Classpath entry org.eclipse.m2e.MAVEN2_CLASSPATH_CONTAINER will not be exported or published
该错误是在我将一个普通的由maven管理的java项目变为javaweb项目后出现的,由警告可以看出是说maven的类路径容器不会被导出或发布(即通过maven管理的依赖不会被导出或发布),那么我们用 ...
.NET 使用事物调用存储过程
using System; using System.Collections.Generic; using System.Configuration; using System.Data; using ...
tomcat 的配置文件server.xml 几个端口的作用
tomcat中server.xml配置文件中几个port的作用和区别在tomcat的server.xml中有这么几个port,很多人虽然一直在使用tomcat,但是却不知道这几个port各有什么作用 ...
CDH5.16.1的Hbase1.2的G1参数配置
1 贴一下自己的G1垃圾收集器参数(region server配置了5G内存) -Xmx5g -Xms5g -XX:MaxDirectMemorySize=5g -XX:+UseG1GC -XX:+U ...
sklearn--模型的评价
sklearn.metrics 1.MSE(均方误差)和RMSE(均方根误差),以及score() lr.score(test_x,test_y)#越接近1越好,负的很差 from sklearn.m ...
web开发：Bootstrap应用及内存管理
一.栅格系统二.移动端适配三.栅格系统案例四.表格五.表单六.循环应用一.栅格系统 <!DOCTYPE html> <html> <head> < ...

scarpy crawl 爬取微信小程序文章（将数据通过异步的方式保存的数据库中）

scarpy crawl 爬取微信小程序文章（将数据通过异步的方式保存的数据库中）的更多相关文章

随机推荐

热门专题