本博文使用的数据库是MySQL和MongoDB数据库.安装MySQL可以参照我的这篇博文:https://www.cnblogs.com/tszr/p/12112777.html 其中操作Mysql使用到的python模块是pymysql,下面是有关这个模块的使用说明: 创建一个数据库test create DATABASE taobao; 下面将要安装一个navicat for mysql这样的软件,下载链接:https://www.pcsoft.com.cn/soft/20832.html?…
什么是 PyMySQL? PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库,Python2中则使用mysqldb. PyMySQL 遵循 Python 数据库 API v2.0 规范,并包含了 pure-Python MySQL 客户端库. PyMySQL 安装 在使用 PyMySQL 之前,我们需要确保 PyMySQL 已安装. PyMySQL 下载地址:https://github.com/PyMySQL/PyMySQL. 如果还未安装,我们可以使用以下命…
1.下载MongoDB 官网下载:https://www.mongodb.com/download-center#community 上面这张图选择第二个按钮 上面这张图直接Next 把bin路径添加到path中,如下图: 在安装路径下自己创建一个文件mongo.conf,配置内容如下: #数据库路径dbpath=E:\mongodb\data#日志输出文件路径logpath=E:\mongodb\log\mongo.log#错误日志采用追加模式logappend=true#启用日志文件,默认启…
import requests from bs4 import BeautifulSoup url = "http://www.cntour.cn/" strhtml = requests.get(url) soup = BeautifulSoup(strhtml.text,"lxml") #下面的参数由网站开发者模式中Copy->copy selector复制而来 data = soup.select("#main > div > di…
现在我们把我国 1990 年到 2017 年的 GDP 数据抓取出 来,井用 Bokeh 绘 出散点统计图 . 由网页爬取所需数据,并用 Bokeh 绘制散点图 . import requests #导入网页内容抓取包 import matplotlib.pyplot as plt #导入绘图模块,重命名为plt from bokeh.plotting import figure, show, output_file from bs4 import BeautifulSoup as bs #导入…
Web 数据抓取技术具有非常巨大的应用需求及价值, 用 Python 在网页上收集数据,不仅抓取数据的操作简单, 而且其数据分析功能也十分强大. 通过 Python 的时lib 组件中的 urlparse 函数,可轻松解 析指定网址的内容,在接收返回的 ParseResult 对象后,即 可通过其属性取出网址中各项有用信息 . Python 还可进一步用 requests 函数抓取网页源代码, 再通过相关语句或正则表达式搜索得到指定的数据. 如果要抓取的数据比较复杂, Python 还可以通过功…
在 Windows 任务计划程序中,设置每隔 30 分钟自动抓取 PM2.5 数据,井保存 在 SQLite 数据库中 . import sqlite3,ast,requests,os from bs4 import BeautifulSoup #cur_path=os.path.dirname(__file__) # 取得目前路径 #print(cur_path) cur_path = 'F:\\' conn = sqlite3.connect(cur_path +'DataBasePM25.…
用python爬取动态网页时,普通的requests,urllib2无法实现.例如有些网站点击下一页时,会加载新的内容,但是网页的URL却没有改变(没有传入页码相关的参数),requests.urllib2无法抓取这些动态加载的内容,此时就需要使用Selenium了. 使用Selenium需要选择一个调用的浏览器并下载好对应的驱动,我使用的是Chrome浏览器. 将下载好的chromedrive.exe文件复制到系统路径:E:\python\Scripts下,如果安装python的时候打path…
绘制图形所需的数据源通常是不固定的,比如,有时我们会需要从网页抓取, 也可能需从文件或数据库中获取. 利用抓取网页数据技术,把我国 1990 年到 2016 年的 GDP 数据抓取出来 ,再利用 MatplotUb 进行绘图显示 . 经搜索发现, http://value500.com/M2GDP.html 网页中有我们所需数据 . 将鼠标移到表格每一行的“年份”处井右击,在弹出的快捷菜单中选择“检查” 选项. Chrome 会打开网页开发工具,并自动显示鼠标位置的 html 程序代码,我们可根…
我们经常使用决策树处理分类问题’近来的调查表明决策树也是最经常使用的数据挖掘算法. 它之所以如此流行,一个很重要的原因就是使用者基本上不用了解机器学习算法,也不用深究它 是如何工作的. K-近邻算法可以完成很多分类任务,但是它最大的缺点就是无法给出数据的内 在含义,决策树的主要优势就在于数据形式非常容易理解. 决策树很多任务都 是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列 规则,机器学习算法最终将使用这些机器从数据集中创造的规则.专家系统中经常使用决策树,…