scrapy实战8关于数据异步写入mysql：

环境：python3

爬取网址：腾讯社招（http://hr.tencent.com/position.php?keywords=&tid=0&start=0#a）总共2202条数据

pipelines.py

 from twisted.enterprise import adbapi

 import pymysql

 import pymysql.cursors

 class MysqlTwistedPipeline(object):

     def __init__(self,dbpool):

         self.dbpool=dbpool

     @classmethod

     def from_settings(cls,settings):

         dbpool=adbapi.ConnectionPool("pymysql",host=settings["MYSQL_HOST"],db=settings["MYSQL_DBNAME"],user=settings["MYSQL_USER"],password=settings["MYSQL_PASSWORD"],charset="utf8", cursorclass=pymysql.cursors.DictCursor,

             use_unicode=True)

         return cls(dbpool)

     def process_item(self,item,spider):

         # 使用twisted将mysql插入变成异步执行

         self.dbpool.runInteraction(self.do_insert,item)

     def do_insert(self,cursor,item):

         # 执行具体的插入

         # 根据不同的item 构建不同的sql语句并插入到mysql中

         insert_sql, params = item.get_insert_sql()

         cursor.execute(insert_sql, params)

items.py

 import scrapy

 class TencentItem(scrapy.Item):

     positionname=scrapy.Field()

     positionlink=scrapy.Field()

     positionType=scrapy.Field()

     positionNum=scrapy.Field()

     positionLocation=scrapy.Field()

     publishTime=scrapy.Field()

     def get_insert_sql(self):

         insert_sql="""

         insert into tencent(positionname,positionlink,positionType,positionNum,positionLocation,publishTime)

         VALUES (%s,%s,%s,%s,%s,%s)

         """

         params=(

             self['positionname'], self['positionlink'], self['positionType'], self['positionNum'],

             self['positionLocation'], self['publishTime']

         )

         return insert_sql,params

settings.py

BOT_NAME = 'tencent'

SPIDER_MODULES = ['tencent.spiders']

NEWSPIDER_MODULE = 'tencent.spiders'

ROBOTSTXT_OBEY = False

（不用分布式可忽略下面三项）

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

SCHEDULER_PERSIST = True

DOWNLOAD_DELAY = 2

DEFAULT_REQUEST_HEADERS = {

  'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:53.0) Gecko/20100101 Firefox/53.0',

  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',

   #'Accept-Language': 'en',

}

ITEM_PIPELINES = {

       'scrapy_redis.pipelines.RedisPipeline':400,（不用分布式可忽略）

      'tencent.pipelines.MysqlTwistedPipeline': 300,

}

REDIS_HOST = '172.21.118.56'（分布式主机ip 不用分布式可忽略）

REDIS_PORT = 6379（不用分布式可忽略）

MYSQL_HOST = "127.0.0.1"

MYSQL_DBNAME = "tencent"(自己数据库名字）

MYSQL_USER = "usrername"（用户名）

MYSQL_PASSWORD = "userpassword"（密码）

spiders/Tencent.py

from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import Rule

from scrapy_redis.spiders import RedisCrawlSpider

from tencent.items import TencentItem

class TencentSpider(RedisCrawlSpider):

    name = "Tencent"

    allowed_domains = ["tencent.com"]

    redis_key = 'TencentSpider:start_urls'

    page_link=LinkExtractor(allow=(r"start=\d+"))

    rules=[

            Rule(page_link,callback = "parseContent",follow=True)

    ]

    def parseContent(self, response):

        list=response.xpath('//tr[@class="even"] | //tr[@class="odd"]')

        for infos in list:

            item=TencentItem()

            item['positionname']=infos.xpath("./td[1]/a/text()").extract()[0]

            item['positionlink']=infos.xpath("./td[1]/a/@href").extract()[0]

            item['positionType']=infos.xpath("./td[2]/text()").extract()

            item['positionNum']=infos.xpath("./td[3]/text()").extract()[0]

            item['positionLocation']=infos.xpath("./td[4]/text()").extract()[0]

            item['publishTime']=infos.xpath("./td[5]/text()").extract()[0]

            yield item

scrapy实战8关于数据异步写入mysql：的更多相关文章

Scrapy爬取豆瓣图书数据并写入MySQL
项目地址 BookSpider 介绍本篇涉及的内容主要是获取分类下的所有图书数据,并写入MySQL 准备 Python3.6.Scrapy.Twisted.MySQLdb等演示代码一.创建项目 ...
Python+Scrapy+Crawlspider 爬取数据且存入MySQL数据库
1.Scrapy使用流程 1-1.使用Terminal终端创建工程,输入指令:scrapy startproject ProName 1-2.进入工程目录:cd ProName 1-3.创建爬虫文件( ...
MySQL实战 | 03 - 谁动了我的数据：浅析MySQL的事务隔离级别
原文链接:这一次,带你搞清楚MySQL的事务隔离级别! 使用过关系型数据库的,应该都事务的概念有所了解,知道事务有 ACID 四个基本属性:原子性(Atomicity).一致性(Consistency ...
HTTP协议与使用Python获取数据并写入MySQL
一.Http协议二.Https协议三.使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求四.爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movi ...
scrapy 爬取知乎问题、答案，并异步写入数据库（mysql）
python版本 python2.7 爬取知乎流程: 一 .分析在访问知乎首页的时候(https://www.zhihu.com),在没有登录的情况下,会进行重定向到(https://www. ...
python scrapy 实战简书网站保存数据到mysql
1:创建项目 2:创建爬虫 3:编写start.py文件用于运行爬虫程序 # -*- coding:utf-8 -*- #作者: baikai #创建时间: 2018/12/14 14:09 #文件: ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
Scrapy实战篇（五）之爬取历史天气数据
本篇文章我们以抓取历史天气数据为例,简单说明数据抓取的两种方式: 1.一般简单或者较小量的数据需求,我们以requests(selenum)+beautiful的方式抓取数据 2.当我们需要的数据量较 ...
Flink 1.9 实战：使用 SQL 读取 Kafka 并写入 MySQL
上周六在深圳分享了<Flink SQL 1.9.0 技术内幕和最佳实践>,会后许多小伙伴对最后演示环节的 Demo 代码非常感兴趣,迫不及待地想尝试下,所以写了这篇文章分享下这份代码.希望 ...

随机推荐

wpf采用Xps实现文档显示、套打功能
原文:wpf采用Xps实现文档显示.套打功能近期的一个项目需对数据进行套打,用户要求现场不允许安装office.页面预览显示必须要与文档完全一致,xps文档来对数据进行处理.Wpf的Document ...
图形化界面安装oracle报错Could not execute auto check for display colors using command /usr/bin/xdpyinfo. Check if the DISPLAY variable is set.
问题描述: 在Linux + oracle 安装时,采有root 帐号登录x-windows 界面,然后 $su oracle 登录录安装Oracle 报以下错误: >>> Coul ...
Entity种类（动态代理）
动态代理:延迟加载+自动化修改跟踪满足条件修改方式见修改EF设置eg. 测试结果
读BeautifulSoup官方文档之与bs有关的对象和属性(2)
上一节说到tag, 这里接着讲, tag有个属性叫做string, tag.string其实就是我们要掌握的四个对象中的第二个 ---- NavigableString, 它代表的是该tag内的te ...
基于树莓派的微型气象站设计与开发（Windows 10 IoT Core）
前言树莓派(Raspberry Pi,RPi)是专门为学生计算机编程教育而设计,只有信用卡大小的卡片式电脑,可以运行Linux或者Windows 10 IoT Core操作系统.本文将利用树莓派和U ...
laravel在wamp中输入地址后总是无法访问
在wamp中的apache中conf的httpd.conf #LoadModule rewrite_module modules/mod_rewrite.so 改为 LoadModule rewrit ...
WPF常见内存泄露
Event handlers leak This type of leak occurs when subscribing an object (let's call it listener) to ...
ELINK离线编程器版本说明
ELINK离线编程器版本详情,ELinkPROG版本与固件版本须匹配使用! 编程器支持芯片详细列表参见 https://www.cnblogs.com/raswin/p/9303300.html
OC笔记一：Objective
1.OC简介全称:Objective-C,是扩充C的面向对象编程语言,主要用于iOS和Mac OS开发. C语言的基础上,增加了一层最小的面向对象语法完全兼容C语言可以在OC代码中混入C语言代码 ...
Win10《芒果TV》更新v3.8.50勇敢版：新增短信和扫码登录
勇敢,是心中最初的信仰,实景科幻实验节目<勇敢的世界>,重装上阵对抗升级,<中餐厅2>皇阿玛圣驾亲临,坐镇中国味道.Win10版<芒果TV>全平台同步更新勇敢版v3 ...

scrapy实战8关于数据异步写入mysql：

scrapy实战8关于数据异步写入mysql：的更多相关文章

随机推荐

热门专题