上一篇文章我们讲解了爬虫如何存储 CSV 文件,这篇文章,我们讲解如何将采集到的数据保存到 MySQL 数据库中。

MySQL 是目前最受欢迎的开源关系型数据库管理系统。一个开源项目具有如此之竞争力实在是令人意外,它的流行程度正在不断地接近两外两个闭源的商业数据库系统:微软的 SQL Server 和甲骨文的 Oracle 数据库(MySQL 在2010年被甲骨文收购)。

它的流行程度名符其实。对于大多数应用来说,MySQL 都是不二选择。他是一种非常灵活、稳定、功能齐全的 DBMS,许多顶级的网站都在使用它:Youtube、Twitter 和 Facebook 等。

因为它受众广泛,免费,开箱即用,所以它是网络数据采集项目中常用的数据库,这篇文章我们介绍如何通过 MySQL 存储采集到的数据。

安装 MySQL

如果你第一次接触 MySQL,可能会觉得有点麻烦。其实,安装方法和安装其他软件一样简单。归根结底,MySQL 就是由一系列数据文件构成的,存储在你远端服务器或者本地电脑上,里面包含了数据库存储的所有信息。

Windows 安装 MySQL、Ubuntu 安装 MySQL、MAC 安装 MySQL 具体步骤在此:全平台安装 MySQL

在此不做过多说明,按照视频操作就可以了。

基本命令

MySQL 服务器启动之后,有很多种方法可以与数据库服务器交互。因为有很多工具是图形界面,所以你可以不用 MySQL 的命令行(或是很少用命令行)也能管理数据库。像 phpMyAdmin 和 MySQL Workbench 这类工具可以很容易地实现数据库查看、排序和新建等工作。但是,掌握命令行操作数据库还是很重要的。

除了用户自定义变量名,MySQL 是不区分大小写的。例如,SELECT 和 select 是一样的,不过习惯上写 MySQL 语句的时候所有的 MySQL 关键词都用大写。大多数开发者还喜欢用小写字母表示数据库和数据表的名称。

首先登入 MySQL 数据库的时候,里面是没有数据库存放数据的。我们需要创建一个数据库:

CREATE DATABASE scraping_article DEFAULT CHARACTER SET UTF8 COLLATE UTF8_GENERAL_CI;

因为每个 MySQL 实例可以有多个数据库,所以使用某个数据库之前需要指定数据库的名称:

USE scraping_article

从现在开始(直到关闭 MySQL 链接或切换到另一个数据库之前),所有的命令都运行在这个新的“scraping_article”数据库里面。

所有操作都看起来非常简单。那么在数据库里面新建表的操作方法也应该类似吧?我们在库里面新建一张表来存储采集的网页文章数据:

CREATE TABLE articles;

结果显示错误:

ERROR 1113 (42000): A table must have at least 1 column

和数据库不同,MySQL 数据表必须有一列,否则不能创建。为了在 MySQL 里定义字段(数据列),我们还必须在 CREATE TABLE 语句后面,把字段定义放进一个带括号的、内部由逗号分隔的列表中:

create table articles
(
id int auto_increment
primary key,
title varchar(64) null,
body text null,
summary varchar(256) null,
body_html text null,
create_time datetime default CURRENT_TIMESTAMP null,
time_updated datetime null,
link_text varchar(128) null
);

每个字段定义由三部分组成:

  • 名称(id、title、body 等)

  • 数据类型(INT、VARCHAR、TEXT)

  • 其他可选属性(NOT NULL AUTO_INCREMENT)

在字段定义列表的最后,还要定义一个“主键”(key)。MySQL 用这个主键来组织表的内容,便于后面快速查询。在以后的文章中,我将介绍如果通过这些主键以提高数据库的查询速度,但是现在,我们使用表的 id 列作为主键就可以。

语句执行之后,我们可以使用 DESCRIBE 查看数据表的结构:

+--------------+--------------+------+-----+-------------------+----------------+
| Field | Type | Null | Key | Default | Extra |
+--------------+--------------+------+-----+-------------------+----------------+
| id | int(11) | NO | PRI | NULL | auto_increment |
| title | varchar(64) | YES | | NULL | |
| body | text | YES | | NULL | |
| summary | varchar(256) | YES | | NULL | |
| body_html | text | YES | | NULL | |
| create_time | datetime | YES | | CURRENT_TIMESTAMP | |
| time_updated | datetime | YES | | NULL | |
| link_text | varchar(128) | YES | | NULL | |
+--------------+--------------+------+-----+-------------------+----------------+
8 rows in set (0.03 sec)

现在这张表是一张空表,我们插入一下数据看看,如下所示:

INSERT INTO articles(title,body,summary,body_html,link_text) VALUES ("Test page title","Test page body.","Test page summary.","<p>Test page body.</p>","test-page");

这里需要我们注意,虽然 articles 表有8个字段(id,title,body,summary,body_html,create_time,time_update,link_text),但实际上我们这里只插入5个字段(title,body,summary,body_html,link_text)的数据即可。因为 id 字段是自动递增的(每次插入数据时 MySQL 默认增加1),通常不用处理。另外 create_time 字段的类型是 current_timestamp,默认插入的是时间戳。

当然我们也可以自定义字段内容插入数据:

INSERT INTO articles(id,title,body,summary,body_html,create_time,link_text) VALUES (4,"Test page title","Test page body.","Test page summary.","<p>Test page body.</p>","2021-11-20 15:51:45","test-page");

只要你定义的整数在数据表的 id 字段里没有,他就可以插入到数据表。但是,这么做非常不好;除非万不得已(比如程序中漏了一行数据),否则让 MySQL 自己处理 id 和 timestamp 字段。

现在表里面有一些数据了,我们可以通过很多方法查询这些数据。下面是几个 SELECT 语句的示例:

SELECT * FROM articles WHERE id=1;

这条语句告诉 MySQL,“从 articles 表中把所有 id 等于 2 的数据全部挑选出来”。这个星号(*)是通配符,表示所有字段,这行语句会把满足条件(where id=1)的所有字段内容都显示出来。如果 id 这里没有任何一行等于1,就会返回一个空集。例如,下面这个不区分大小写的查询,会返回 title 字段里包含 “test”的所有行(%符号表示 MySQL 字符串通配符)的所有字段:

SELECT * FROM articles WHERE title LIKE "%test%";

但是如果你有很多字段,而你只想返回部分字段怎么办?你可以不要用星号,而是使用下面的方式:

SELECT title, body FROM articles WHERE body LIKE "%test%";

这样就只会返回 body 内容包含 “test” 所有行的 title 和 body 两个字段了。

DELETE 语句语法与 SELECT 语句类似:

DELETE FROM articles WHERE id=1;

由于数据库的数据删除不能恢复,所以在执行 DELETE 语句之前,建议使用 SELECT 确认一下需要删除的数据(上面的删除语句可以使用 SELECT * FROM articles WHERE id=1; 查看),然后把 SELECT * 换成 DELETE 就可以了,这会是一个好习惯。很多程序员都有过一些 DELETE 误操作的伤心往事,还有一些恐怖的故事就是有人慌乱中忘了在语句中放 WHERE,结果把所有的客户数据都删除了。别让这事情发生在你身上!

还有一个需要介绍的是 UPDATE 语句:

UPDATE articles SET title="A new title", body="Some new body." WHERE id=4;

以上只是使用了最基本的 MySQL 语句,做一些简单的数据查询、创建和更新等工作。

与 Python 整合

Python 没有内置的 MySQL 支持工具。不过,有很多开源的可以用来与 MySQL 做交互,Python 2.x 和 Python 3.x 版本都支持。最有名的一个就是 PyMySQL

我们可以使用 pip 安装,执行如下命令:

python3 -m pip install PyMySQL

安装完成我们就可以使用 PyMySQL 包了。如果你的 MySQL 服务器处于运行状态,应该就可以成功地执行下面命令:

import pymysql
import os
from dotenv import load_dotenv class DataSaveToMySQL(object):
def __init__(self):
# loading env config file
dotenv_path = os.path.join(os.getcwd(), '.env')
if os.path.exists(dotenv_path):
load_dotenv(dotenv_path) conn = pymysql.connect(host=os.environ.get('MYSQL_HOST'), port=os.environ.get('MYSQL_PORT'),
user=os.environ.get('MYSQL_USER'), password=os.environ.get('MYSQL_PASSWORD'),
db=os.environ.get('MYSQL_DATABASES'))
cur = conn.cursor()
cur.execute("SELECT * FROM articles WHERE id=4;")
print(cur.fetchone())
cur.close()
conn.close()

这段程序有两个对象:连接对象(conn)和游标对象(cur)。

连接/游标模式是数据库编程中常用的模式,在刚刚接触数据库的时候,有的时候很难区分这两种模式的不同。连接模式除了连接数据库之外,还要发送数据库信息,处理回滚操作(当一个查询或一组查询被中断时,数据库就需要回到初始状态,一般使用事务实现状态回滚),创建新的游标等等。

而一个连接可以有很多个游标,一个游标追踪一种状态(state)信息,比如追踪数据库的使用状态。如果有多个数据库,且需要向所有数据库写内容,就需要多个游标来处理。游标还可以包含最后一次查询执行结果。通过调用游标函数,比如cur.fetchone(),可以获取查询结果。

用完连接和游标之后千万记得关闭它们。如果不关闭就会导致连接泄露(connection leak),造成一种关闭连接现象,即连接已经不再使用,但数据库却不能关闭,因为数据库不确定你还要不要继续使用它。这种现象一直会耗费数据库资源,所以用完数据库之后记得关闭连接!

刚开始的时候,你想做的事情就是把采集的数据保存到数据库。我们继续采集博客文章的例子来演示如何实现数据存储。

import pymysql
import os
from dotenv import load_dotenv from config import logger_config
from utils import connection_util class DataSaveToMySQL(object):
def __init__(self):
# loading env config file
dotenv_path = os.path.join(os.getcwd(), '.env')
if os.path.exists(dotenv_path):
load_dotenv(dotenv_path)
# MySQL config
self._host = os.environ.get('MYSQL_HOST')
self._port = int(os.environ.get('MYSQL_PORT'))
self._user = os.environ.get('MYSQL_USER')
self._password = os.environ.get('MYSQL_PASSWORD')
self._db = os.environ.get('MYSQL_DATABASES') self._target_url = 'https://www.scrapingbee.com/blog/'
self._baseUrl = 'https://www.scrapingbee.com'
self._init_connection = connection_util.ProcessConnection()
logging_name = 'store_mysql'
init_logging = logger_config.LoggingConfig()
self._logging = init_logging.init_logging(logging_name) def scrape_data(self):
get_content = self._init_connection.init_connection(self._target_url)
if get_content:
parent = get_content.findAll("section", {"class": "section-sm"})[0]
get_row = parent.findAll("div", {"class": "col-lg-12 mb-5 mb-lg-0"})[0]
get_child_item = get_row.findAll("div", {"class": "col-md-4 mb-4"})
for item in get_child_item:
# 获取标题文字
get_title = item.find("a", {"class": "h5 d-block mb-3 post-title"}).get_text()
# 获取发布时间
get_release_date = item.find("div", {"class": "mb-3 mt-2"}).findAll("span")[1].get_text()
# 获取文章描述
get_description = item.find("p", {"class": "card-text post-description"}).get_text()
self.article_save_mysql(title=get_title, description=get_description, release_date=get_release_date)
else:
self._logging.warning('未获取到文章任何内容,请检查!') def article_save_mysql(self, title, description, release_date):
connection = pymysql.connect(host=self._host, port=self._port, user=self._user, password=self._password,
db=self._db, charset='utf-8')
with connection.cursor() as cursor:
# Create a new record
sql = "INSERT INTO articles (title,summary,create_time) VALUES (%s,%s,%s);"
cursor.execute(sql, (title, description, release_date)) # connection is not autocommit by default. So you must commit to save
# your changes.
connection.commit()

这里有几点需要注意:首先,charset='utf-8' 要增加到连接字符串里。这是让 conn 把所有发送数据库的信息都当成 utf-8 编码格式(当然,前提是数据库默认编码设置成 UTF-8)。

然后需要注意的是 article_save_mysql 函数。它有3个参数:title、description和release_date,并把这两个参数加入到一个 INSERT 语句中并用游标执行,然后使用游标进行确认。这是一个让游标与连接分离的好例子;当游标里存储了一些数据库与数据库上下文(context)的信息时,需要通过连接确认将信息传进数据库,再将信息插入数据库。

上面代码没有使用 try...finally 语句来关闭数据库,而是使用的 with() 来关闭数据库连接,上一期中我们也是使用的 with() 来关闭 CSV 文件。

虽然 PyMySQL 规模并不大,但是里面有一些非常实用的函数,本篇文章中并没有演示,具体可以参考 Python 的 DBAPI 标准文档

以上是关于将采集的内容保存到 MySQL 的内容,本实例的所有代码托管于 github。

github: https://github.com/sycct/Scrape_1_1.git

如果有任何问题,欢迎在 github issue。

爬虫系列:使用 MySQL 存储数据的更多相关文章

  1. MySQL系列(二)--MySQL存储引擎

    影响数据库性能的因素: 1.硬件环境:CPU.内存.存盘IO.网卡流量等 2.存储引擎的选择 3.数据库参数配置(影响最大) 4.数据库结构设计和SQL语句 MySQL采用插件式存储引擎,可以自行选择 ...

  2. PHP+MySQL存储数据出现中文乱码的问题

    PHP+MySQL出现中文乱码的原因: 1. MYSQL数据库的编码是utf8,与PHP网页的编码格式不一致,就会造成MYSQL中的中文乱码. 2. 使用MYSQL中创建表.或者选择字段时设置的类型不 ...

  3. 爬虫系列---scrapy全栈数据爬取框架(Crawlspider)

    一 简介 crawlspider 是Spider的一个子类,除了继承spider的功能特性外,还派生了自己更加强大的功能. LinkExtractors链接提取器,Rule规则解析器. 二 强大的链接 ...

  4. [转] MySQL 查询表数据大小的总结

    一:关于mysql表数据大小 我们知道mysql存储数据文件一般使用表空间存储 当mysql使用innodb存储引擎的时候,mysql使用表存储数据分为共享表空间和独享表空间两种方式 ·共享表空间:I ...

  5. [数据库系列之MySQL]Mysql优化笔记

    大型网站提速之MySql优化 数据库优化包括的方面 数据库优化是一个综合性的技术,并不是通过某一种方式让数据库效率提高很多,而是通过多方面的提高,从而使得数据库提高很多. 主要包括: 1.表的设计合理 ...

  6. Mysql存储结构

    索引是一种加快查询速度的数据结构,常用索引结构有hash.B-Tree和B+Tree.本节通过分析三者的数据结构来说明为啥Mysql选择用B+Tree数据结构. 数据结构 Hash hash是基于哈希 ...

  7. MYSQL系列-Mysql存储引擎选择

    MYSQL系列-Mysql存储引擎选择 //查看当前数据库支持的存储引擎 show engines \G; 创建表的时候可以通过engine=MyISAM指定存储引擎 MyISAM: .MYISAM不 ...

  8. Nutch的配置(使用MySQL作为数据存储)

    首先先从http://www.apache.org/dyn/closer.cgi/nutch/下载安装包 这里假定nutch的根目录为:${APACHE_NUTCH_HOME} 配置${APACHE_ ...

  9. Mysql高手系列 - 第27篇:mysql如何确保数据不丢失的?我们借鉴这种设计思想实现热点账户高并发设计及跨库转账问题

    Mysql系列的目标是:通过这个系列从入门到全面掌握一个高级开发所需要的全部技能. 欢迎大家加我微信itsoku一起交流java.算法.数据库相关技术. 这是Mysql系列第27篇. 本篇文章我们先来 ...

随机推荐

  1. oeasy教您玩转vim - 57 - # 行可视化

    ​ 可视化编辑 回忆上节课内容 上次我们了解到可视模式 其实可视化对应三种子模式 字符可视模式 v 行可视模式 大写V 块可视模式ctrl+v 我们先来了解字符可视化模式 快捷键 v 可配合各种mot ...

  2. 攻防世界 WEB 高手进阶区 PHP2 Writeup

    攻防世界 WEB 高手进阶区 PHP2 Writeup 题目介绍 题目考点 url 二次解码 index.phps 文件(第一次使用dirsearch可能扫不到,需要加到工具字典里) php 简单语法 ...

  3. LeetCode88 合并有序数组

    1. 这道题为简单题目,但是还有需要好好思考的 2. 首先不能使用额外数组合并,不然就没得后文了 3. nums1后面有0填充,且填充数量正好是n,整个数组大小即m+n能够容纳合并后的数据 4.既然要 ...

  4. celery tasks always in pending

    Result backend doesn't work or tasks are always in PENDING state¶All tasks are PENDING by default, s ...

  5. Integer.valueOf()和Integer.parseInt()区别

    他们返回类型的不同是最大的原因. static int parseInt(String s) 将字符串参数作为有符号的十进制整数进行分析. static Integer valueOf(int i) ...

  6. hudi clustering 数据聚集(三 zorder使用)

    目前最新的 hudi 版本为 0.9,暂时还不支持 zorder 功能,但 master 分支已经合入了(RFC-28),所以可以自己编译 master 分支,提前体验下 zorder 效果. 环境 ...

  7. 旧电脑做服务器--第一篇 sql server 服务器搭建

    背景:旧电脑为2015年的老电脑,联系G50系列,目前键盘鼠标操作都有问题,键盘按键和鼠标左键莫名奇妙变成右击,屏幕显示也是大颗粒.但是配置还可以,16GB内存+256GB三星固态硬盘.所以想搭建作为 ...

  8. FZU ICPC 2020 寒假训练 4 —— 模拟(二)

    P1056 排座椅 题目描述 上课的时候总会有一些同学和前后左右的人交头接耳,这是令小学班主任十分头疼的一件事情.不过,班主任小雪发现了一些有趣的现象,当同学们的座次确定下来之后,只有有限的 D 对同 ...

  9. 安装mysql会出现start service错误

    安装MySQL时无法启动服务(could not start the service MYSQL .Error:0)安装mysql会出现start service错误安装mysql时 配置到start ...

  10. <C#任务导引教程>练习一

    //1,定位显示ASCI码值为30到119的字符using System;class Program{    static void Main()    {        int i, n = 0;  ...