scrapy 数据存储mysql

#spider.py
from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from Cwpjt.items import CwpjtItem

class FulongSpider(CrawlSpider):

    name = 'fulong'

    allowed_domains = ['sina.com.cn']

    start_urls = ['http://sina.com.cn/']

    'http://news.sina.com.cn/c/2017-05-09/doc-ifyeycte9324112.shtml'

    rules = (

        Rule(LinkExtractor(allow=('.*?/[0-9]{4}.[0-9]{2}.[0-9]{2}.doc-.*?shtml'),allow_domains=('sina.com.cn')),

             callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        i = CwpjtItem()

        i['name']=response.xpath('/html/head/title/text()').extract()

        i['kws'] = response.xpath('/html/head/meta[@name="keywords"]/@content').extract()

        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

        #i['name'] = response.xpath('//div[@id="name"]').extract()

        #i['description'] = response.xpath('//div[@id="description"]').extract()

        return i

pipeline

import pymysql

from pymysql import connections

class CwpjtPipeline(object):

    def __init__(self):

        self.conn = pymysql.connect(host='127.0.0.1',user='root',passwd='',db ='mydb')

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        name = item['name'][0]

        kws = item['kws'][0]

        sql ="insert into hehe(title,kws) VALUES(%s,%s)"

        self.cursor.execute(sql,(name,kws,))

        self.conn.commit()

        return item

    def close_spider(self,spider):

        self.conn.close()

item

import scrapy

class CwpjtItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

    kws = scrapy.Field()

scrapy 数据存储mysql的更多相关文章

python3之scrapy数据存储问题（MySQL）
这次我用的是python3.6,scrapy在python2.7,3.5的使用方法都不同所以要特别注意, 列如在python3.5的开发环境下scrapy 的主爬虫文件可以使用 from urlli ...
python3下scrapy爬虫(第十卷:scrapy数据存储进mysql）
上一卷中我将爬取的数据文件直接写入文本文件中,现在我将数据存储到mysql中,我依然用的是pymysql,这个很麻烦建表需要在外面建这次代码只需要改变pipyline就行来现在看下结果: 对比发 ...
解析数据存储MySQL
为了适应不同项目对不同感兴趣属性的解析存储,数据存储结构采用纵向的属性列表方式,即一个url页面多个属性存储多条记录方式,并且按照text,html, data,num几大典型类型分别对应存储. 创建 ...
python3下scrapy爬虫(第十二卷:解决scrapy数据存储大量数据时阻塞问题）
之前我们使用scrapy爬取数据,用的存储方式是直接引入PYMYSQL,或者MYSQLDB,案例中数据量并不大,这种数据存储方式属于同步过程,也就是上一条语句执行完才能执行下一条语句,当数据量变大时, ...
python3下scrapy爬虫(第十一卷:scrapy数据存储进mongodb）
说起python爬虫数据存储就不得不说到mongodb,现在我们来试一下scrapy操作mongodb 首先开启mongodb mongod --dbpath=D:\mongodb\db 开启服务后就 ...
python3下scrapy爬虫(第九卷:scrapy数据存储进JSON文件）
将爬取数据存储在JSON文件里并不难,只需修改pipelines文件直接看代码: 来看下结果: 中文字符恶心的很之后我会在后卷中做出修改
scrapy数据存储在mysql数据库的两种方式
方法一:同步操作 1.pipelines.py文件(处理数据的python文件) import pymysql class LvyouPipeline(object): def __init__(se ...
scrapy 异步存储mysql
1.在setting中设置MySQL连接信息 HOST='101.201.70.139'MYSQL_DBNAME='anttest'MYSQL_PASSWORD='Myjr678!@#'MYSQL_U ...
Python数据存储 — MySQL数据库操作
本地安装MySQL 调试环境python3.6,调试python操作mysql数据库,首先要在本地或服务器安装mysql数据库. 安装参考:https://mp.csdn.net/postedit/8 ...

随机推荐

PyTorch官方中文文档：torch.Tensor
torch.Tensor torch.Tensor是一种包含单一数据类型元素的多维矩阵. Torch定义了七种CPU tensor类型和八种GPU tensor类型: Data tyoe CPU te ...
Java8 日期/时间（Date Time）使用简介
特别说明: LocalDateTime 为日期时间的计算提供了很大的方便, 在构造对象/运算/toString等方便都非常便利. 3个常用的类: java.time.LocalDateTime; ja ...
Ubuntu出现ERR_PROXY_CONNECTION_FAILED错误解决方案
我是Ubuntu新手,因为想查看国外的资料,然后安装了灯笼,结果打开谷歌浏览器出现了ERR_PROXY_CONNECTION_FAILED错误,未连接到互联网,代理服务器出现错误,然后Firefox也 ...
MySQ备份常见问题
1.备份的时候出现2002报错,找不到/tmp/mysql.sock,这个文件 [root@centos199 backup]# mysqldump -uroot -ppassword cz-offi ...
lodash源码分析之数组的差集
外部世界那些破旧与贫困的样子,可以使我内心世界得到平衡. --卡尔维诺<烟云> 本文为读 lodash 源码的第十七篇,后续文章会更新到这个仓库中,欢迎 star:pocket-lodas ...
java 流详解
流在Java中是指计算中流动的缓冲区. 从外部设备流向中央处理器的数据流成为“输入流”,反之成为“输出流”. 字符流和字节流的主要区别: 1.字节流读取的时候,读到一个字节就返回一个字节:字符流使用了 ...
MySQL数据库索引简介
一.索引的含义和特点索引是一个单独的.存储在磁盘上的数据库结构,他们包含着对数据表里所有记录的引用指针.使用索引用于快速找出某个或多个列中有一特点值的行,所用MySQL列类型都可以被索引,对 ...
js实现二叉树
//binary tree//add order remove findfunction tree() { var node = function(key) { this.left = null; ...
Ｗin10_x86_x64PE维护光盘——我用过最好用的PE
先感谢hongxj和fish2006两位大大提供的PE. 先放出所有工具的下载地址: hongxj的PE:https://yunpan.cn/crAw6HS6ar9ck 访问密码 4a4e fish ...
设计模式——组合模式（C++实现）
组合模式:将对象组合成树形结构以表示“部分-整体”的层次结构. 组合模式使得用户对单个对象和组合对象的使用具有一致性. 是一种结构型模式使用场景: 1.用于对象的部分-整体层次结构,如树 ...

scrapy 数据存储mysql

scrapy 数据存储mysql的更多相关文章

随机推荐

热门专题