信息技术手册可视化进度报告基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库

老师给我们提供了一个word文档，里面是一份信息行业热词解释手册，要求我们把里面的文字存进数据库里面，然后在前台展示出来。

首先面临的问题是怎么把数据导进MySQL数据库，大家都有自己的方法，我采用了将word转换成html文件，然后通过爬虫技术将内容提取出来保存到数据库。

写这篇博客的时候我刚存进数据库里，所以就介绍一下我的爬虫代码，下一篇将介绍通过微信小程序展示MySQL中的数据。

python的爬虫框架有很多，我用的是BeautifulSoup框架，首先要在头文件引用一下包from bs4 import BeautifulSoup

BeautifulSoup框架常用的用的一些函数有：

find（）#获得一条map数据

find_all（name , attrs , recursive , string , **kwargs ）#搜索当前tag的所有tag子节点,并判断是否符合过滤器的条件，获得list列表

select（）#跟find_all类似，常用的是find_all（），可以通过select('#id')取得含有特定CSS属性的元素

get_text()#返回一个tag节点内的文字

同学也有用xpath做爬虫的

XPath 是一门在 XML 文档中查找信息的语言。 
BeautifulSoup是一种在BeautifulSoup（）处理后的树形文档中解析的语言 
re正则表达式只能对string类型对象进行解析

下面是代码

from bs4 import BeautifulSoup

import pymysql

#数据时从本地文件里来

def read_file(path):

    #注意编码格式可能会出错

    with open(path, 'r+', encoding='ANSI') as f:

        str = f.read()

    return str.strip().replace('\ufeff', '')

# 解析目录数据

def parse_data(data):

    #读取第一个MsoToc1和第二个MsoToc1之间的所有数据

    for str1 in data.split('class=MsoToc1')[1:]:

        bs = BeautifulSoup(str1, 'lxml')

        index = 0

        title1 = ""

        title2 = ""

        title3 = ""

        try:

            for tag in bs.select('a'):

                strs = tag.get_text().split(' ')[0].rstrip()

                if ('第' in strs and '篇' in strs):

                    title1 = tag.get_text().split(' ')[1].replace('.', '')

                elif ('第' in strs and '章' in strs):

                    title2 = tag.get_text().split(' ')[1].replace('.', '')

                else:

                    index = strs;

                    title3 = tag.get_text().split(' ')[1].replace('.', '')

                    save(index, title1, title2, title3)

        except:

            print("数据有误，跳过执行")

    bigdiv = data.split('class=WordSection3')[1]

    for str1 in bigdiv.split('class=3132020')[1:]:

        soup = BeautifulSoup('<p class=3132020 '+str1, 'lxml')

        content = ""

        index = int(soup.find('p', {'class': '3132020'}).get_text().split(' ')[0])

        for tag in soup.find_all('p', {'class': '4'}):

            content += tag.get_text()+'\r\n'

        update(index,content)

    return

#保存到数据库

def save(index,title1,title2,title3):

    db = pymysql.connect(host='localhost', user='root', password='root', db='jaovo_msg')

    conn = db.cursor()  # 获取指针以操作数据库

    conn.execute('set names utf8')

    t = (int(index), title1, title2, title3)

    sql = "INSERT INTO datasfromhtml(`index`,title1,title2,title3) values(%d,'%s','%s','%s')" % t

    try:

        conn.execute(sql)

        # 执行sql语句

        db.commit()

    except:

        # 发生错误时回滚

        db.rollback()

    # 关闭数据库连接

    db.close()

    return

#修改到数据库

def update(index,content):

    db = pymysql.connect(host='localhost', user='root', password='root', db='jaovo_msg')

    conn = db.cursor()  # 获取指针以操作数据库

    conn.execute('set names utf8')

    t = (content,int(index))

    sql = "update datasfromhtml set content = '%s' where `index` = %d" % t

    try:

        conn.execute(sql)

        # 执行sql语句

        db.commit()

    except:

        # 发生错误时回滚

        db.rollback()

    # 关闭数据库连接

    db.close()

    return

if __name__ == '__main__':

    str=read_file('../resource/HB.htm')

    parse_data(str)

信息技术手册可视化进度报告基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库的更多相关文章

信息技术手册可视化进度报告基于jieba的关键字提取技术
在这一篇博客之前,我已经将word文件中的内容通过爬虫的方式整理到数据库中了,但是为了前台展示的需要,还必须提取出关键字,用于检索. 我用的是jieba分词,GitHub地址:https://gith ...
基于scrapy框架输入关键字爬取有关贴吧帖子
基于scrapy框架输入关键字爬取有关贴吧帖子站点分析首先进入一个贴吧,要想达到输入关键词爬取爬取指定贴吧,必然需要利用搜索引擎点进看到有四种搜索方式,分别试一次,观察url变化我们得知: 搜 ...
在ThinkPHP框架（5.0.24）下引入Ueditor并实现向七牛云对象存储上传图片同时将图片信息保存到MySQL数据库，同时实现lazyload懒加载
这是我花了很多天的时间才得以真正实现的一组需求. 文章后面有完整Demo的GitHub链接. 一. 需求描述 1. 应用是基于ThinkPHP5开发的: 2. 服务器环境是LNMP,PHP版本是7.2 ...
Scrapy框架——使用CrawlSpider爬取数据
引言本篇介绍Crawlspider,相比于Spider,Crawlspider更适用于批量爬取网页 Crawlspider Crawlspider适用于对网站爬取批量网页,相对比Spider类,Cr ...
Python使用Scrapy框架爬取数据存入CSV文件(Python爬虫实战4)
1. Scrapy框架 Scrapy是python下实现爬虫功能的框架,能够将数据解析.数据处理.数据存储合为一体功能的爬虫框架. 2. Scrapy安装 1. 安装依赖包 yum install g ...
基于Thinkphp5+phpQuery 网络爬虫抓取数据接口,统一输出接口数据api
TP5_Splider 一个基于Thinkphp5+phpQuery 网络爬虫抓取数据接口统一输出接口数据api.适合正在学习Vue,AngularJs框架学习开发demo,需要接口并保证接口不跨 ...
基于webmagic的种子网站爬取
代码地址如下:http://www.demodashi.com/demo/12175.html 1. 概述因为无聊,闲来没事做,故突发奇想,爬个种子,顺便学习爬虫.本文将介绍使用Spring/Myb ...
第三百三十四节，web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻，爬取Ajax动态生成的信息
第三百三十四节,web爬虫讲解2—Scrapy框架爬虫—Scrapy爬取百度新闻,爬取Ajax动态生成的信息 crapy爬取百度新闻,爬取Ajax动态生成的信息,抓取百度新闻首页的新闻rul地址有多 ...
scrapy框架综合运用爬取天气预报 + 定时任务
爬取目标网站: http://www.weather.com.cn/ 具体区域天气地址: http://www.weather.com.cn/weather1d/101280601.shtm(深圳) ...

随机推荐

也谈开源GIS架构实现思想
针对业务发展需要,需要开发设计一套具备自己独立GIS平台.然而以ArcGIS为主的GIS软件价格昂贵,在经过仔细技术与市场动向调研后,确立一套以Java语言的开源GIS软件平台.桌面CS端Udig+G ...
golang相关书签
https://www.zhihu.com/question/30461290 golang资料精选汇编
JSP+MySQL最简单的登录和注册的实现 --Java Web温习
一.开发环境开发工具:eclipse 2018-09 操作系统:win10 二.实现 1.目录结构: 2.数据库(创建tmp数据库,新建user表,user表结构如下) 3.功能简介功能比较简单, ...
Adb工具的简单使用
Adb全称为Android Debug Bridge adb就是连接android手机与PC机的桥梁,可以在pc端对手机进行全面的操作借助adb工具,可以管理设备或者手机模拟器的状态,进行手机操作, ...
LeetCode--030--串联所有单词的字串(java)
给定一个字符串 s 和一些长度相同的单词 words.找出 s 中恰好可以由 words 中所有单词串联形成的子串的起始位置. 注意子串要与 words 中的单词完全匹配,中间不能有其他字符,但不需要 ...
SWUST OJ(599)
拉丁方阵 #include <iostream> #include <cstdlib> using namespace std; int main() { int n; cin ...
CSS中的单位px、em、rem、%、vw、vh、vm
px 相对长度单位,像素px 是相对于显示器屏幕分辨率而言的.是我们网页设计常用的单位,也是基本单位. 通过 px 可以设置固定的布局或者元素大小,缺点是没有弹性.用 px 设置字体大小时,比较稳定和 ...
FreeMaker入门介绍
一.FreeMaker介绍 FreeMarker是一款免费的Java模板引擎,是一种基于模板和数据生成文本(HMLT.电子邮件.配置文件.源代码等)的工具,它不是面向最终用户的,而是一款程序员使用的组 ...
TFLite基础知识
此基础知识仅为个人学习记录,如有错误或遗漏之处,还请各位同行给个提示. 概述 TFLite主要含有如下内容: (1)TFLite提供一系列针对移动平台的核心算子,包括量化和浮点运算.另外,TFLite ...
Tensorflow选择性初始化图中的变量
import tensorflow as tf def initialize_uninitialized(sess): global_vars = tf.global_variables() is_n ...

信息技术手册可视化进度报告 基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库

信息技术手册可视化进度报告 基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库的更多相关文章

随机推荐

热门专题

信息技术手册可视化进度报告基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库

信息技术手册可视化进度报告基于BeautifulSoup框架的python3爬取数据并连接保存到MySQL数据库的更多相关文章