摘要:偶然机会接触到python语音,感觉语法简单.功能强大,刚好朋友分享了一个网课<python 爬虫与数据可视化>,于是在工作与闲暇时间学习起来,并做如下课程笔记整理,整体大概分为4个部分(1.python基础知识 2.爬虫基础知识 3.数据提取与存储 4.数据分析与可视化),入门级课程. 一.python的背景介绍.安装与配置.pycharm的安装与配置.ipython的安装.pip install的使用 二.python的变量与数据类型 数据类型:字符串.数字(整数.浮点数).布尔类型…
startDate = "2018-10-01"endDate = "2018-10-31" ###字符转化为日期startTime = datetime.datetime.strptime(startDate, '%Y-%m-%d').time()endTime = datetime.datetime.strptime(endDate, '%Y-%m-%d').time() now = datetime.datetime.now()print(now) ###日期…
内容目录 简介mysql时间类型DATE_FORMAT()函数 简介 今天开发中,做一个功能需要对历史数据进行补充,相信大家也遇到过这样的情况,这个历史数据需要按月份和人的id进行区分,于是想到了mysql的时间格式化,这样直接写个sql脚本就不需要程序去执行了,在做到这一块时我个人对时间这一块没有详细了解过,所以借助这个机会整理一下mysql时间相关的内容,其实我这次主要用的是时间格式转换功能,脚本如下 1INSERT INTO `xxxx`.`xxxxx`(`years_month`, `r…
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取t.cn/A6Zvjdun 前一阵子,由于肖战的“227事件”微博和朋友圈都被刷屏,起因在与肖战的粉丝发现在AO3作品库平台收录关于肖战的同人作品,认为该部作品影响了肖战的形象,遂向有关部门举报,最终告知知名同人网站A03(Archive of our own)作品库无法被访问. 这也对爱好同人作品的读者与…
前一篇提到了与股票数据相关的可能几种数据情况,本篇接着上篇,介绍一下多个网页的数据爬取.目标抓取平安银行(000001)从1989年~2017年的全部财务数据. 数据源分析 地址分析 http://money.finance.sina.com.cn/corp/go.php/vFD_FinancialGuideLine/stockid/000001/ctrl/2017/displaytype/4.phtml 在浏览器(PC上)中打开这个地址,就可以看到下图显示的财务数据.这个地址是一个通用格式:(…
要求: 1. 参考教材实例20,编写Python爬虫程序,获取江西省所有高校的大学排名数据记录,并打印输出. 2. 使用numpy和matplotlib等库分析数据,并绘制南昌大学.华东交通大学.江西理工大学三个高校的总分排名.生源质量(新生高考成绩得分).培养结果(毕业生就业率).顶尖成果(高被引论文·篇)等四个指标构成的多指标柱形图. 3. 对江西各高校的顶尖成果(高被引论文数量)进行分析,使用matplotlib绘制各高校顶尖成果数构成的饼状图,并突出江西理工大学所在的饼状块. 实例代码:…
我的新书,<基于股票大数据分析的Python入门实战>,预计将于2019年底在清华出版社出版. 如果大家对大数据分析有兴趣,又想学习Python,这本书是一本不错的选择.从知识体系上来看,这本书的内容涵盖了开发Python企业级项目所需的知识点,包括但不限于Python基础语法知识.基于Pandas的大数据分析技术.基于Matplotlib的可视化编程技术.Python爬虫技术和基于Django的网络编程技术,甚至还在本书的最后,讲述了机器学习编程技术. 这本书的大多数范例程序是基于股票分析的…
最近在写一个脚本,需要处理从excel中读取的数据,发现读取的json格式数据进行转换时报错 ValueError: Expecting property name enclosed in double quotes: line 1 column 2 (char 1)网上查了是因为json的key没有双引号,导致json解析错误的.为了处理读取的数据从str转换为json查了一下str和json格式转换: 1.)str转jsonstr转换为json格式,前提一定需要保证这个str的格式和json…
1 import time,datetime 2 3 time_original = '17/Sep/2012:11:40:00' 4 time_format = datetime.datetime.strptime(time_original, '%d/%b/%Y:%H:%M:%S‘) 5 #这里可以 print time_format 或者 直接 time_format 一下看看输出结果,默认存储为datetime格式 6 time_format = time_format.strftime…
import java.text.*; import java.util.Calendar; public class VeDate { /** * 获取现在时间 * * @return 返回时间类型 yyyy-MM-dd HH:mm:ss */ public static Date getNowDate() { Date currentTime = new Date(); SimpleDateFormat formatter = new SimpleDateFormat("yyyy-MM-dd…
def show(self,response): # print(response.url) title = response.xpath('//main/div/div/div/div/h1/text()').extract() print(title) shijian_time = datetime.strptime(''.join(response.xpath('//main/div/div/div/div/div/span[1]/text()').extract()),'%Y年%m月%d…
在开发一个小程序时,使用到了DateTime类型的 DBType, 当向数据库中插入一条信息时,报错说是DateTime类型不能转换. 后来发现是系统给我的DateTime类型的列赋予了个初值,而这个初值在Windows Phone的数据类型中超出了最小值. 解决方法: 每次向数据库中插入数据时,当该列没有值时,我给它赋了一个默认值2000/1/1. 问题解决.…
<ww:date value="" format="yyyy-MM-dd">…
一.爬虫的定义.爬虫的分类(通用爬虫.聚焦爬虫).爬虫应用场景.爬虫工作原理(最后会发一个完整爬虫代码) 二.http.https的介绍.url的形式.请求方法.响应状态码 url的形式: 请求头: 常见响应状态码(可利用响应状态码判断响应状态assert response.status_code == 200): 三.数据请求,获取响应(requests模块,详细使用方法api文档) 中文文档api:http://docs.python-requests.org/zh_CN/latest/in…
# Python Library import time def getToday(format=3): """返回今天的日期字串""" # format=1 20190305 # format=2 08:26 # format=3 2019/03/05 # format=4 2019/03/05 08:26 # format=5 190305 # format=6 2019-03-05 # format=7 2019/03/05 08:25:4…
一:前言 本次爬取的是喜马拉雅的热门栏目下全部电台的每个频道的信息和频道中的每个音频数据的各种信息,然后把爬取的数据保存到mongodb以备后续使用.这次数据量在70万左右.音频数据包括音频下载地址,频道信息,简介等等,非常多.昨天进行了人生中第一次面试,对方是一家人工智能大数据公司,我准备在这大二的暑假去实习,他们就要求有爬取过音频数据,所以我就来分析一下喜马拉雅的音频数据爬下来.目前我还在等待三面中,或者是通知最终面试消息. (因为能得到一定肯定,不管成功与否都很开心) 二:运行环境 IDE…
在做接口自动化的时候,请求数据之前都是JSON格式的,Python有自带的包来解决.最近在做APP的接口,遇到XML格式的请求数据,费了很大劲来解决,解决方式是:接口文档拿到的是XML,在线转化为json格式(目的是拿到xml数据的模板),存放到json文件中,根据接口名去提取. github原文介绍:使用XML的Python模块感觉就像您在使用JSON 链接:https://github.com/martinblech/xmltodict 下载xmltodict(pip install xml…
首先,转换sph2pipe工具所在文件夹(此工具为LDC所提供的SPHERE音频文件转换工具) cd '/home/dream/Research/kaldi-master/tools/sph2pipe_v2.5' 其次:在命令行进行音频文件转换测试: ./sph2pipe -f wav ./wav_test/SA1.WAV ./wav_test/SA1_tr.WAV 此处需要注意的是,sph2pipe可执行文件不再PATH当中,所以需要当前路径下的完全路径,即:./sph2pipe才可以运行,而…
一.正则解析 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线.中文 \W : 非\w \s :所有的空白字符包,括空格.制表符.换页符等等.等价于 [ \f\n\r\t\v]. \S : 非空白 数量修饰: * : 任意多次 >=0 + : 至少1次 >=1 ? : 可有可无 0次或者1次 {m} :固定m次 hello{3,} {m,} :至少m次 {m,n} :m-n次 边…
一.数据分析的目的(利用大数据量数据分析,帮助人们做出战略决策) 二.什么是matplotlib? matplotlib: 最流行的Python底层绘图库,主要做数据可视化图表,名字取材于MATLAB,模仿MATLAB构建,能将数据进行可视化.更直观的呈现.使数据更加客观.更具说服力. 三.matplotlib模块的使用基本要点,根据不同的需求选择不同的图表,常用如折现图.散点图.柱状图等. 四.matplotlib能够绘制折线图,散点图,柱状图,直方图,箱线图,饼图等,但是,我们需要知道不同的…
2017-08-06 19:52:21 目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中 技术路线:scrapy 获取股票列表:东方财富网:http://quote.eastmoney.com/stocklist.html获取个股信息:百度股票:https://gupiao.baidu.com/stock/单个股票:https://gupiao.baidu.com/stock/sz002439.html 程序框架 编写spider处理链接爬取和页面解析,编写pipelines处…
资料: W3C标准:https://www.w3.org/TR/xpath/all/ W3School:https://www.w3school.com.cn/xpath/index.asp 菜鸟教程:https://www.runoob.com/xpath/xpath-tutorial.html xpath教程:http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html XPATH在线测试:http://www.bejson.…
前面我们用pandas做了一些基本的操作,接下来进一步了解数据的操作, 数据清洗一直是数据分析中极为重要的一个环节. 数据合并 在pandas中可以通过merge对数据进行合并操作. import numpy as np import pandas as pd data1 = pd.DataFrame({'level':['a','b','c','d'], 'numeber':[1,3,5,7]}) data2=pd.DataFrame({'level':['a','b','c','e'], '…
一.python中的模块 模块的安装:pip install 模块名 导入模块与函数:import requests . from pymongo import MongoClient json模块的使用 json字符串转python数据类型:json.loads()  反之 json.dumps() 二.文件操作 打开文件:f=open("文件名","r")  #文件访问模式(只读方式打开文件r,写w,追加a,以二进制文件格式打开文件rb,写wb,追加ab) 读取…
text()                       获取xpath中的值....../h1/text() extract()[0]              Selector的方法用于提取内容为一个数组. extract_first("")        与extract()[0]相同更加准确 contains() 匹配一个属性值中包含的字符串 contains(@class, 'vote-post') strip()    把头和尾的空格去掉 lstrip()   把左边的空格…
application.yml加入配置 spring: jackson: date-format: yyyy-MM-dd HH:mm:ss time-zone: GMT+8…
案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/china/' web_data = requests.get(url) web_data.encoding = 'utf-8' soup = BeautifulSoup(web_data.text,'…
案例一 抓取对象: 新浪国内新闻(http://news.sina.com.cn/china/),该列表中的标题名称.时间.链接. 完整代码: from bs4 import BeautifulSoup import requests url = 'http://news.sina.com.cn/china/' web_data = requests.get(url) web_data.encoding = 'utf-8' soup = BeautifulSoup(web_data.text,'…
前段时间,在学习试用FFmpeg播放音频的时候总是有杂音,网上的很多教程是基于之前版本的FFmpeg的,而新的FFmepg3中audio增加了平面(planar)格式,而SDL播放音频是不支持平面格式的,所以通过FFmpeg解码出来的数据不能直接发送到SDL进行播放,需要进行一个格式转换.通过网上一些资料,也能够正确的播放音频了,但是对具体的音频转换过程不是很了解,这里就对FFmpeg的对音频的存储格式及格式转换做个总结.本文主要有以下几个方面的内容: AVSampleFormat 音频samp…
知乎的一个讲python的专栏,其中爬虫的几篇文章,偏入门解释,快速看了一遍. 入门 爬虫基本原理:用最简单的代码抓取最基础的网页,展现爬虫的最基本思想,让读者知道爬虫其实是一件非常简单的事情. 爬虫代码改进:这部分是一系列文章,从程序设计的角度来讲,是爬虫中要掌握的基本代码设计思路.主要从两方面对之前代码进行改进:一个是代码设计的角度,让读者习惯于定义函数.使用生成器等:第二是展现多页抓取.抓取二级页面的代码逻辑. 爬虫相关库的安装:讲述本专题将会使用到的所有库的安装方法,有的简单,有的会有些…