Scrapy爬虫案例 | 数据存储至MySQL

首先，MySQL创建好数据库和表

然后编写各个模块

item.py

import scrapy

class JianliItem(scrapy.Item):

    name = scrapy.Field()

    url = scrapy.Field()

pipeline.py

import pymysql                            #导入数据库的类

class JianliPipeline(object):

    conn = None

    cursor = None

    def open_spider(self,spider):

        print('开始爬虫')

        self.conn = pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='',db='jianli')     #链接数据库

    def process_item(self, item, spider):                #编写向数据库中存储数据的相关代码

        self.cursor = self.conn.cursor()                                        #1.链接数据库

        sql = 'insert into jl values("%s","%s")'%(item['name'],item['url'])            #2.执行sql语句

        try:                                                    #执行事务

            self.cursor.execute(sql)

            self.conn.commit()

        except Exception as e:

            print(e)

            self.conn.rollback()

        return item

    def close_spider(self,spider):

        print('爬虫结束')

        self.cursor.close()

        self.conn.close()

spider

# -*- coding: utf-8 -*-

import scrapy

import re

from lxml import etree

from jianli.items import JianliItem

class FxhSpider(scrapy.Spider):

    name = 'jl'

    # allowed_domains = ['feixiaohao.com']

    start_urls = ['http://sc.chinaz.com/jianli/free_{}.html'.format(i) for i in range(3)]

    def parse(self,response):

        tree = etree.HTML(response.text)

        a_list = tree.xpath('//div[@id="container"]/div/a')

        for a in a_list:

            item = JianliItem (

                name=a.xpath("./img/@alt")[0],

                url=a.xpath("./@href")[0]

            )

            yield item

settings.py

#USER_AGENT

headers = {

    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"

}

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

# Configure item pipelines

# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html

ITEM_PIPELINES = {

   'jianli.pipelines.JianliPipeline': 300,

}

查看存储情况

Scrapy爬虫案例 | 数据存储至MySQL的更多相关文章

Scrapy爬虫案例 | 数据存储至MongoDB
豆瓣电影TOP 250网址要求: 1.爬取豆瓣top 250电影名字.演员列表.评分和简介 2.设置随机UserAgent和Proxy 3.爬取到的数据保存到MongoDB数据库 items.py ...
python3下scrapy爬虫(第十卷:scrapy数据存储进mysql）
上一卷中我将爬取的数据文件直接写入文本文件中,现在我将数据存储到mysql中,我依然用的是pymysql,这个很麻烦建表需要在外面建这次代码只需要改变pipyline就行来现在看下结果: 对比发 ...
猫眼电影爬取(一)：requests+正则，并将数据存储到mysql数据库
前面讲了如何通过pymysql操作数据库,这次写一个爬虫来提取信息,并将数据存储到mysql数据库 1.爬取目标爬取猫眼电影TOP100榜单要提取的信息包括:电影排名.电影名称.上映时间.分数 2 ...
python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
第四天，同步和异常数据存储到mysql，item loader方法
github对应代码:伯乐在线文章爬取一. 普通插入方法 1. 连接到我的阿里云,用户名是test1,然后在navicat中新建数据库
Spring Boot 揭秘与实战（二）数据存储篇 - MySQL
文章目录 1. 环境依赖 2. 数据源3. 脚本初始化 2.1. 方案一使用 Spring Boot 默认配置 2.2. 方案二手动创建 4. 使用JdbcTemplate操作5. 总结 4.1. ...
使用MapReduce读取HBase数据存储到MySQL
Mapper读取HBase数据 package MapReduce; import org.apache.hadoop.hbase.Cell; import org.apache.hadoop.hba ...
第十节：Web爬虫之数据存储与MySQL8.0数据库安装和数据插入
用解析器解析出数据之后,接下来就是存储数据了,保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如 TXT.JSON.csv 另外,还可以保存到数据库中,如关系型数据库MySQL ,非关系型数 ...
爬虫实践——数据存储到Excel中
在进行爬虫实践时,我已经爬取到了我需要的信息,那么最后一个问题就是如何把我所爬到的数据存储到Excel中去,这是我没有学习过的知识. 如何解决这个问题,我选择先百度查找如何解决这个问题. 百度查到的方 ...

随机推荐

Golang读取并修改非主流配置文件
今天工作中碰到的问题,要求修改此配置文件,没看出来是什么格式,用了下面的思路: mysql { # If any of the files below are set, TLS encryption ...
myeclipse导入项目中文乱码怎么解决教程
大家在Myeclipse导入项目的时候,应该都遇见过一些乱码的问题,不单单只是Myeclipse有这个问题,那么怎么解决Myeclipse导入项目乱码的问题呢,问题出现的原因是什么呢,下面来看看答案. ...
BZOJ3926 ZJOI2015诸神眷顾的幻想乡（广义后缀自动机）
对多串建立SAM的一种方法是建trie再对trie建SAM.构造方式分为在线(也即不建trie而是依次插入每个串,或在trie上dfs)和离线(也即建好trie再bfs).其中离线构造与单串的构造方式 ...
The underlying connection was closed: An unexpected error occurred on a receive
解决方法 webRequest.KeepAlive = false; ServicePointManager.ServerCertificateValidationCallback += (s, ce ...
去世父亲在儿子手机中复活，这可能是最温暖的一个AI
美国青年James Vlahos的父亲不幸因病去世,但聊以慰藉的是,现在他每天还能和父亲聊天并收到回复,而且父亲在回复中的口吻与语气,就仿佛还「活着」一样. 这并不是恐怖片剧情,而是科技的魔幻力量:回 ...
函数内this指向+排序+找出数组大小项+Math类
解决函数内this指向: 1,可以在函数外提前声明变量 _this/that = this 2,通过apply()和call()来修改函数内的this指向二者区别: 用法是一样的,参数形式不一样 f ...
编写可维护的JavaScript-随笔（一）
一.基本的格式化 1. 缩进层级 a) 制表符缩进 i. 好处:制表符和缩进层级是一对一的关系是符合逻辑的,文本编辑器可以配置制表符的展示长度,可以随意调节 ii. ...
Vue笔记目录
Vue笔记目录一.Vue.js介绍二.vue基础-vue-cli(vue脚手架) ...持续更新中,敬请期待
Cheat Engine 自动注入
打开游戏引用自动注入选择跳转地址 CEAA脚本自动生成红色部分就是添加代码的地方添加代码让阳光每次减少0,并且分配到作弊表进行激活测试发现阳光果然只增不减了
kubernetes网络之Flannel
简介 Flannel是CoreOS团队针对Kubernetes设计的一个网络规划服务,简单来说,它的功能是让集群中的不同节点主机创建的Docker容器都具有全集群唯一的虚拟IP地址. 在默认的Dock ...

Scrapy爬虫案例 | 数据存储至MySQL

Scrapy爬虫案例 | 数据存储至MySQL的更多相关文章

随机推荐

热门专题