scrapy 数据存储mysql

#spider.py
from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule

from Cwpjt.items import CwpjtItem

class FulongSpider(CrawlSpider):

    name = 'fulong'

    allowed_domains = ['sina.com.cn']

    start_urls = ['http://sina.com.cn/']

    'http://news.sina.com.cn/c/2017-05-09/doc-ifyeycte9324112.shtml'

    rules = (

        Rule(LinkExtractor(allow=('.*?/[0-9]{4}.[0-9]{2}.[0-9]{2}.doc-.*?shtml'),allow_domains=('sina.com.cn')),

             callback='parse_item', follow=True),

    )

    def parse_item(self, response):

        i = CwpjtItem()

        i['name']=response.xpath('/html/head/title/text()').extract()

        i['kws'] = response.xpath('/html/head/meta[@name="keywords"]/@content').extract()

        #i['domain_id'] = response.xpath('//input[@id="sid"]/@value').extract()

        #i['name'] = response.xpath('//div[@id="name"]').extract()

        #i['description'] = response.xpath('//div[@id="description"]').extract()

        return i

pipeline

import pymysql

from pymysql import connections

class CwpjtPipeline(object):

    def __init__(self):

        self.conn = pymysql.connect(host='127.0.0.1',user='root',passwd='123456',db ='mydb')

        self.cursor = self.conn.cursor()

    def process_item(self, item, spider):

        name = item['name'][0]

        kws = item['kws'][0]

        sql ="insert into hehe(title,kws) VALUES(%s,%s)"

        self.cursor.execute(sql,(name,kws,))

        self.conn.commit()

        return item

    def close_spider(self,spider):

        self.conn.close()

item

import scrapy

class CwpjtItem(scrapy.Item):

    # define the fields for your item here like:

    name = scrapy.Field()

    kws = scrapy.Field()

scrapy存储mysql的更多相关文章

分布式数据存储 - MySQL双主复制
上篇文章<分布式数据存储 - MySQL主从复制>,我们说到MySQL主从复制很好的保障了从库,读的高可用性.so,问题来了: 1.针对主库,写的高可用性又是如何做到高可用性? 2.如果需 ...
Scrapy小技巧-MySQL存储, MYSQL拼接
这两天上班接手,别人留下来的爬虫发现一个很好玩的 SQL脚本拼接. 只要你的Scrapy Field字段名字和数据库字段的名字一样.那么恭喜你你就可以拷贝这段SQL拼接脚本.进行MySQL入库处理 ...
scrapy 异步存储mysql
1.在setting中设置MySQL连接信息 HOST='101.201.70.139'MYSQL_DBNAME='anttest'MYSQL_PASSWORD='Myjr678!@#'MYSQL_U ...
scrapy 数据存储mysql
#spider.pyfrom scrapy.linkextractors import LinkExtractor from scrapy.spiders import CrawlSpider, Ru ...
解析数据存储MySQL
为了适应不同项目对不同感兴趣属性的解析存储,数据存储结构采用纵向的属性列表方式,即一个url页面多个属性存储多条记录方式,并且按照text,html, data,num几大典型类型分别对应存储. 创建 ...
分布式数据存储 - MySQL主从复制高可用方案
前面几篇文章说道MySQL数据库的高可用方案主从复制.主从复制的延迟产生原因.延迟检测及延迟解决方案(并未从根本上解决),这种主从复制方案保证数据的冗余的同时可以做读写分离来分担系统压力但是并非是高可 ...
解决Emoji存储MySQL报错问题
在解决之前,得先说明一下为什么会出现报错,Emoji表情占用4个字节,但是MySQL数据库UTF-8编码最多只能存储3个字节,就会导致存储不进去如何解决Emoji存储问题 mysql 的 utf8编 ...
scrapy连接MySQL
Scrapy中连接MySQL所需要做的工作如下: 1.settings中需要设置的部分 # 启动管道组件 ITEM_PIPELINES = { 'QianChengWuYu.mongoDBPiplel ...
数据存储之关系型数据库存储---MySQL存储
MySQL的存储利用PyMySQL连接MySQL 连接数据库 import pymysql # 连接MySQL MySQL在本地运行用户名为root 密码为123456 默认端口3306 db = ...

随机推荐

[BZOJ3611][Heoi2014]大工程（虚树上DP）
3611: [Heoi2014]大工程 Time Limit: 60 Sec Memory Limit: 512 MBSubmit: 2464 Solved: 1104[Submit][Statu ...
[CSP-S模拟测试]:爬（贪心）
题目传送门(内部题134) 输入格式第一行两个数$N,L$. 接下来$N$行每行两个数$A_i,B_i$. 接下来$N$行每行一个整数$C_i$. 输出格式一行一个整数表示答案,无解输出$-1$. ...
Mysql 里CHAR和VARCHAR的最大长度及一些注意事项
先写出结论: Mysql 5中非空CHAR的最大总长度是255[字节]:非空VARCHAR的最大总长度是65533[字节]. 可空CHAR的最大总长度是254[字节]:可空VARCHAR的最大总长度 ...
第三天·HTML常用标签
一·<h1>-<h6> 单词缩写:headHTML的<h1>-<h6>代表了六个等级的标题,其中<h1>标签比较重要,因此要尽量少用.一般& ...
C++入门经典-例5.3例5.4-输出int指针运算后的地址值
1:代码如下: // 5.3.cpp : 定义控制台应用程序的入口点. // #include "stdafx.h" #include <iostream> using ...
网络1911、1912 C语言第1次作业批改总结
一.评分规则重点检查大家代码规范,变量名.大括号换行.缩进等发现不规范倒扣3分. 助教会进PTA查看大家代码的提交列表,发现不规范或抄袭,均扣分每次作业完成后,至少邀请3个同学点评. 原作业地址: ...
Moodle LMS 开源教育系统
http://docs.websoft9.com/xdocs/moodle-image-guide/ 帮助文档示例图:没有细研究
认识一下java神器Btrace
转载: http://calvin1978.blogcn.com/articles/btrace1.html BTrace是神器,每一个需要每天解决线上问题,但完全不用BTrace的Java工程师,都 ...
datagrid数据清空
方法一: 不管是url方式还是加载本地数据的方式,均可以直接使用loadData方法清空数据,一行代码就可以清空: $('#tt').datagrid('loadData',{total:0,rows ...
APP测试流程梳理
APP测试流程梳理 1 APP测试基本流程 1.1流程图 1.2测试周期测试周期可按项目的开发周期来确定测试时间,一般测试时间为两三周(即15个工作日),根据项目情况以及版本质量可适当缩短或延长测试 ...

scrapy存储mysql

scrapy 数据存储mysql

scrapy存储mysql的更多相关文章

随机推荐

热门专题