Python scrapy爬虫数据保存到MySQL数据库

除将爬取到的信息写入文件中之外，程序也可通过修改 Pipeline 文件将数据保存到数据库中。为了使用数据库来保存爬取到的信息，在 MySQL 的 python 数据库中执行如下 SQL 语句来创建 job_inf 数据表：

CREATE TABLE job inf (

  id INT (11) NOT NULL AUTO_INCREMENT PRIMARY KEY,

  title VARCHAR (255),

  salary VARCHAR (255),

  company VARCHAR (255),

  url VARCHAR(500),

  work_addr VARCHAR (255),

  industry VARCHAR (255),

  company_size VARCHAR(255),

  recruiter VARCHAR(255),

  publish_date VARCHAR (255)

)

　然后将 Pipeline 文件改为如下形式，即可将爬取到的信息保存到 MySQL 数据库中：

# 导入访问MySQL的模块

import mysql.connector

class ZhipinspiderPipeline(object):

    # 定义构造器，初始化要写入的文件

    def __init__(self):

        self.conn = mysql.connector.connect(user='root', password='32147',

            host='localhost', port='3306',

            database='python', use_unicode=True)

        self.cur = self.conn.cursor()

    # 重写close_spider回调方法，用于关闭数据库资源

    def close_spider(self, spider):

        print('----------关闭数据库资源-----------')

        # 关闭游标

        self.cur.close()

        # 关闭连接

        self.conn.close()

    def process_item(self, item, spider):

        self.cur.execute("INSERT INTO job_inf VALUES(null, %s, %s, %s, %s, %s, \

            %s, %s, %s, %s)", (item['title'], item['salary'], item['company'],

            item['url'], item['work_addr'], item['industry'],

            item.get('company_size'), item['recruiter'], item['publish_date']))

        self.conn.commit()

　　上面程序中第 19 行代码使用 execute() 方法将 item 对象中的信息插入数据库中。

程序为该 Pipeline 类定义了构造器，该构造器可用于初始化数据库连接、游标；程序还为该 Pipeline 类重写了 close_spider() 方法，该方法负责关闭构造器中初始化的数据库资源。

使用 scrapy crawl job_position 命令启动爬虫，当程序运行结束之后，将会在 python 数据库的 job_inf 表中看到多了 300 条招聘信息。

Python scrapy爬虫数据保存到MySQL数据库的更多相关文章

python之scrapy爬取数据保存到mysql数据库
1.创建工程 scrapy startproject tencent 2.创建项目 scrapy genspider mahuateng 3.既然保存到数据库,自然要安装pymsql pip inst ...
如何将大数据保存到 MySql 数据库
1. 什么是大数据 1. 所谓大数据, 就是大的字节数据,或大的字符数据. 2. 标准 SQL 中提供了如下类型来保存大数据类型: 字节数据类型: tinyblob(256B), blob(64K), ...
爬取网贷之家平台数据保存到mysql数据库
# coding utf-8 import requests import json import datetime import pymysql user_agent = 'User-Agent: ...
node 爬虫 --- 将爬取到的数据，保存到 mysql 数据库中
步骤一:安装必要模块 (1)cheerio模块 ,一个类似jQuery的选择器模块,分析HTML利器. (2)request模块,让http请求变的更加简单 (3)mysql模块,node连接mysq ...
Python实现将图片以二进制格式保存到MySQL数据库中，以及取出：
创建数据库表格式: CREATE TABLE photo ( photo_no int(6) unsigned NOT NULL auto_increment, image MEDIUMBLOB, P ...
将爬取的数据保存到mysql中
为了把数据保存到mysql费了很多周折,早上再来折腾,终于折腾好了安装数据库 1.pip install pymysql(根据版本来装) 2.创建数据打开终端键入mysql -u root -p ...
php将图片以二进制保存到mysql数据库并显示
一.存储图片的数据表结构: -- -- 表的结构 `image` -- CREATE TABLE IF NOT EXISTS `image` ( `id` int(3) NOT NULL AUTO_I ...
信息技术手册可视化进度报告基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库
老师给我们提供了一个word文档,里面是一份信息行业热词解释手册,要求我们把里面的文字存进数据库里面,然后在前台展示出来. 首先面临的问题是怎么把数据导进MySQL数据库,大家都有自己的方法,我采用了 ...
使用官方组件下载图片，保存到MySQL数据库，保存到MongoDB数据库
需要学习的地方,使用官方组件下载图片的用法,保存item到MySQL数据库需要提前创建好MySQL数据库,根据item.py文件中的字段信息创建相应的数据表 1.items.py文件 from sc ...

随机推荐

height:auto 火狐没边框
css高度设置为auto后,设置的边框 ie正常火狐就没有边框了,解决方法之前是这样写的 #right_bottom { width: 790px; height:auto; border: # ...
接口测试---Python数据处理需要注意的细节
一.json模块中的dumps方法请求接口时params肯定是dict类型的,就是这种{"A":"B"},因为需要传json格式的参数到服务端,但是为了降低c ...
接口自动化：HttpClient + TestNG + Java(一) - 接口测试概述+自动化环境搭建
1.1 接口测试简介 1.1.1 什么是接口测试开始学习接口自动化测试之前,我们先要来了解什么是接口,以及什么是接口测试. 我们都知道,测试从级别上划分可以分为组件测试集成测试系统测试验收测 ...
.NET CORE 中使用AutoMapper进行对象映射
简介 AutoMapper uses a fluent configuration API to define an object-object mapping strategy. AutoMappe ...
.Net Core Web Api 上传女朋友的照片到微软云Azure Storage
前言实现一个Web Api,把女朋友照片保存到Azure云的storage里. Image Upload Api 在对应的Api Controller里,加上attribute: [Consumes ...
Linux高级运维第五章 Vim编辑器和恢复ext4下误删除的文件-Xmanager工具
5.1 vim主要模式介绍,vim命令模式. 确保系统已经安装了VIM工具 [root@panda ~]# rpm -qf `which vim` [root@panda ~]# rpm -qf ` ...
【MySQL】MySQL的执行计划及索引优化
我们知道一般图书馆都会建书目索引,可以提高数据检索的效率,降低数据库的IO成本.MySQL在300万条记录左右性能开始逐渐下降,虽然官方文档说500~800w记录,所以大数据量建立索引是非常有必要的. ...
Cookie 数据浅谈
Cookie 是一些数据, 存储于你电脑上的文本文件中. 当 web 服务器向浏览器发送 web 页面时,在连接关闭后,服务端不会记录用户的信息. Cookie 的作用就是用于解决 "如 ...
python xlrd 读取excel.md
文章链接:https://mp.weixin.qq.com/s/fojkVO-AB2cCu7FtDtPBjw 之前的文章介绍过关于写入excel表格的方法,近期自己在做一个网站,涉及到读取excel, ...
纯Java实现微信朋友圈分享图
纯Java实现微信朋友圈分享图 1.实现分享图的效果 2.开发环境 2.1 JDK * oracle's jdk 1.8以上 2.2 字体 * 若选择了微软雅黑字体又是代码部署到Linux,则需要安装 ...

Python scrapy爬虫数据保存到MySQL数据库

Python scrapy爬虫数据保存到MySQL数据库的更多相关文章

随机推荐

热门专题