python爬虫入门七：pymysql库

我们使用python爬取得到的数据，有时候会数据量特别大，需要存入数据库。

需要注意的是，MySQL是一种关系型数据库管理系统，利用MySQL可以对数据库进行操作，而MySQL并不是一个数据库。

而pymysql库的作用就是在python中对MySQL进行操作。

简单来说，使用pymysql库对MySQL进行操作，分为以下三个步骤：

1. 同MySQL建立连接

要对MySQL进行操作，首先需要同MySQL建立连接。pymysql提供了connect()方法用于同MySQL建立连接：

import pymysql

db = pymysql.connect(host='localhost', user='root', password='mysqlkey', db='test_db', port=3306)

需要传入的参数如下：

传入参数	注释
host	服务器地址
user	MySQL的账户
password	账户密码
db	需要连接到的数据库名
port	连接用的端口

2. 执行SQL语句

2.1 创建游标

# 创建游标
cursor = db.cursor()

游标是映射在结果集中一行数据上的位置实体，有了游标，用户就可以访问结果集中的任意一行数据了，将游标放置到某行后，即可对该行数据进行操作。然而这些都是mysql内部的事情了，我们只需要知道要写上这么两句话，在执行sql语句前实例化一个游标对象，并在执行完sql语句提交后，关掉这个游标就好了。

2.2 传入需要执行的SQL语句

使用cursoe.execute()方法传入需要执行的SQL语句

# 执行一条SQL语句，如果test表存在就删除
cursor.execute('DROP TABLE IF EXISTS test')

2.3 将SQL语句提交至MySQL执行

使用commit()方法将execute()传入的SQL语句提交至MySQL执行。

# 提交至MySQL执行
db.commit()

3. 关闭同MySQL的连接

# 关闭游标
cursor.close()
# 关闭同数据库的连接
db.close()

完成对数据库的操作后，需要关闭游标及同数据库的连接，以释放资源。

python爬虫入门七：pymysql库的更多相关文章

Python爬虫入门七之正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式! 1.了解正则表达式正则表达式是对字符串操作的 ...
转 Python爬虫入门七之正则表达式
静觅 » Python爬虫入门七之正则表达式 1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符.及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串 ...
Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门之Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧. 1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解 ...
PYTHON 爬虫笔记七:Selenium库基础用法
知识点一:Selenium库详解及其基本使用什么是Selenium selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium ...
Python爬虫入门：Urllib库的高级使用
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...
Python爬虫入门：Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CS ...
芝麻HTTP：Python爬虫入门之Urllib库的基本使用
1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它是一段HTML代码,加 JS.CSS ...
芝麻HTTP： Python爬虫入门之Urllib库的高级用法
1.设置Headers 有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性. 首先,打开我们的浏览 ...

随机推荐

进程---Process
#! /usr/bin/env python# -*- coding:utf-8 -*- """ python中的多线程其实并不是真正的多线程(全局解释器锁(GIL)存在 ...
C# 文件操作全收录追加、拷贝、删除、移动文件、创建目录、递归删除文件夹及文件....
本文收集了目前最为常用的C#经典操作文件的方法,具体内容如下:C#追加.拷贝.删除.移动文件.创建目录.递归删除文件夹及文件.指定文件夹下面的所有内容copy到目标文件夹下面.指定文件夹下面的所有内 ...
C#连接Oracle中文乱码问题解决方法
1.打开注册表:开始-运行-regedit HKEY_LOCAL_MACHINE/SOFTWARE/ORACLE/KEY_OraDb11g_home1/OLEDB 在右侧点鼠标右键- ...
java中的线程安全是什么？什么叫线程安全？什么叫不安全？
java中的线程安全是什么: 就是线程同步的意思,就是当一个程序对一个线程安全的方法或者语句进行访问的时候,其他的不能再对他进行操作了,必须等到这次访问结束以后才能对这个线程安全的方法进行访问什么叫 ...
一、使用MyBatis
定义sql映射xml文件 userMapper.xml文件的内容如下:  <!DOCTYPE mapper PUBLIC "-//mybatis.org ...
GIT本地pull远程失败，本地tag与远程仓库不匹配问题
2019-05-15 问题现象: 1.GIT本地目录无法pull下远程仓库已新增的内容,一直提示Already up to date 2.git log 命令显示没有远端的tag版本 $git lo ...
Java-String字符串相关
字符串String: 封装char[] 字符数组,不可变(因为在底层代码中,值用final关键字修饰) 字符串的字面值: 如果第一次用到一个字符串字面值,会在内存中"字符串常量池" ...
基于Servlet+smartUpload的文件上传
文件上传在web应用中是非常常见的,现在我就介绍下基于servlet的文件上传,基于Struts2的文件上传可以看: 页面端代码: <%@ page language="java&qu ...
Web开发入门不得不看章
引如今,各种互联网的Web应用程序层出不穷,那么如何快速入门,成长为一个优秀的Web开发工作者呢? 这个问题不容易回答,几乎所有的培训机构都不能清晰地解答. 所以对于Web开发刚刚入门的菜鸟们,我觉 ...
Nginx性能优化参考
nginx性能优化参考 1)调整配置文件中的配置项的值(配置文件:nginx.conf) worker_processes auto;开启的进程数,一般配置为跟逻辑CPU核数一样worker_rlim ...

python爬虫入门七：pymysql库

python爬虫入门七：pymysql库的更多相关文章

随机推荐

热门专题