在传染病研究领域,社交媒体数据已被证明可作为预测感冒和流感季节的发作和进展的指标.在本文中,我们将使用Google Trends API来衡量与冠状病毒的状态.我们将使用python谷歌趋势API pytrends在州一级分析google搜索“冠状病毒”. 安装依赖 要安装pytrends,请打开命令行并输入: pip install pytrends 对于我们这里,如果需要代理的话需要在安装requests的依赖 pip install requests[socks] 编写代码 然后打开你喜欢…
一.简介 马上大四了,最近在暑期实习,在数据挖掘的主业之外,也帮助同事做了很多网络数据采集的内容,接下来的数篇文章就将一一罗列出来,来续写几个月前开的这个网络数据采集实战的坑. 二.马蜂窝评论数据采集实战 2.1 数据要求 这次我们需要采集的数据是知名旅游网站马蜂窝下重庆区域内所有景点的用户评论数据,如下图所示: 思路是,先获取所有景点的poi ID,即每一个景点主页url地址中的唯一数字: 这一步和(数据科学学习手札33)基于Python的网络数据采集实战(1)中做法类似,即在下述界面: 翻页…
自动化测试基础 一. 软件测试分类 1.1 根据项目流程阶段划分软件测试 1.1.1 单元测试 单元测试(或模块测试)是对程序中的单个子程序或具有独立功能的代码段进行测试的过程. 1.1.2 集成测试 集成测试是在单元测试的基础上,先通过单元模块组装成系统或子系统,再进行测试.重点是检查模块之间的接口是否正确. 1.1.3 系统测试 系统测试是针对整个产品系统进行的测试,验证系统是否满足需求规格的定义,以及软件系统的正确性和性能等是否满足其需求规格的要求. 1.1.4 验收测试 验收测试是部署软…
psutil是一个跨平台库(http://code.google.com/p/psutil/),能够轻松实现获取系统运行的进程和系统利用率(包括CPU.内存.磁盘.网络等)信息.它主要应用于系统监控,分析和限制系统资源及进程的管理.它实现了同等命令行工具提供的功能,如ps.top.lsof.netstat.ifconfig.who.df.kill.free.nice.ionice.iostat.iotop.uptime.pidof.tty.taskset.pmap等.目前支持32位和64位的Li…
kafka实战教程(python操作kafka),kafka配置文件详解 应用往Kafka写数据的原因有很多:用户行为分析.日志存储.异步通信等.多样化的使用场景带来了多样化的需求:消息是否能丢失?是否容忍重复?消息的吞吐量?消息的延迟? kafka介绍 Kafka属于Apache组织,是一个高性能跨语言分布式发布订阅消息队列系统[7].它的主要特点有: 以时间复杂度O(1)的方式提供消息持久化能力,并对大数据量能保证常数时间的访问性能: 高吞吐率,单台服务器可以达到每秒几十万的吞吐速率: 支持…
百度到<金庸小说全集 14部>全(TXT)作者:金庸 下载下来,然后读取内容with open('names.txt') as f: data = [line.strip() for line in f.readlines()] novels = data[::2] names = data[1::2] novel_names = {k: v.split() for k, v in zip(novels, names)} //可以在这里打印下看是不是都读取过 //开始分词并加载 for _,…
Prometheus介绍 Prometheus是一个最初在SoundCloud上构建的开源监控系统 .它现在是一个独立的开源项目,为了强调这一点,并说明项目的治理结构,Prometheus 于2016年加入CNCF,作为继Kubernetes之后的第二个托管项目. 特点 具有由 metric 名称和键/值对标识的时间序列数据的多维数据模型 PromQL,有一个灵活的查询语言 不依赖分布式存储,只和本地磁盘有关 通过 HTTP 的服务拉取时间序列数据 也支持推送的方式来添加时间序列数据 通过服务发…
提示:该代码仅供学习使用,切勿滥用!!! 先来一个git地址:https://gitee.com/wang_li/li_wang 效果图: 逻辑: 1.获取Json文件的内容 2.根据信息生成URL 3.获取URL的内容,根据时间进行分析,如果有票则发送邮件,如果没有,则继续监听 1.定义Json文件 内容如下: { "_Nodes" : "定义起始站", "from_address" : "成都东", "_Node…
Edited by Markdown Refered from: John Ladd, Jessica Otis, Christopher N. Warren, and Scott Weingart, "Exploring and Analyzing Network Data with Python," The Programming Historian 6 (2017), https://programminghistorian.org/en/lessons/exploring-an…
python爬虫之分析Ajax请求抓取抓取今日头条街拍美图 一.分析网站 1.进入浏览器,搜索今日头条,在搜索栏搜索街拍,然后选择图集这一栏. 2.按F12打开开发者工具,刷新网页,这时网页回弹到综合这一栏,点击图集,在开发者工具中查看 XHR这个选项卡. 3.具体分析url,请求参数 当我们在请求图集这个页面时,url如下: 请求参数如下: 我们可以看到这个url的构成: 前面:https://www.toutiao.com/search_content/? 后面:offset=0&forma…
线性回归: 注:为偏置项,这一项的x的值假设为[1,1,1,1,1....] 注:为使似然函数越大,则需要最小二乘法函数越小越好 线性回归中为什么选用平方和作为误差函数?假设模型结果与测量值 误差满足,均值为0的高斯分布,即正态分布.这个假设是靠谱的,符合一般客观统计规律.若使 模型与测量数据最接近,那么其概率积就最大.概率积,就是概率密度函数的连续积,这样,就形成了一个最大似然函数估计.对最大似然函数估计进行推导,就得出了推导后结果: 平方和最小公式 注: 1.x的平方等于x的转置乘以x. 2…
一.Http协议 二.Https协议 三.使用Python获取数据 (1)urlib (2)GET请求 (3)POST请求 四.爬取豆瓣电影实战 1.思路 (1)在浏览器中输入https://movie.douban.com/j/search_tags?type=movie会得到显示的电影的分类标签,下面以“热门”为例 {"tags":["热门","最新","经典","可播放","豆瓣高分&quo…
最近常听同事提及相关性分析,正巧看到这个google的开源库,并把相关操作与调试结果记录下来. 输出结果: 比较有意思的巧合是黄蓉使出打狗棒,郭靖就用了降龙十八掌,再后测试了名词的解析. 小说集可以百度<金庸小说全集 14部>全(TXT)作者:金庸 下载下来.需要整理好格式,门派和武功名称之间需要有换行符,留意删除掉最后一行的空白区域.下载完成后可以用自己习惯的工具或程序做相应调整,因语料内容太长,博客里面不允许"堆砌",所以没复制上来,有需要的可以再联系. with op…
Http实战之Wireshark抓包分析 Http相关的文章网上一搜一大把,所以笔者这一系列的文章不会只陈述一些概念,更多的是通过实战(抓包+代码实现)的方式来跟大家讨论Http协议中的各种细节,帮助大家理解那些反反复复记不住的的概念! 搭建测试项目 我们选用netty搭建一个服务端,使用httpclient来实现http客户端. 对netty或者httpclient不熟悉的同学不用担心,涉及到的代码都非常简单. 服务端我之所以选用这两个框架是因为相对来说,它们对http协议的封装较浅,在后面的…
一直以来被Linux的hostname和fqdn(Fully Qualified Domain Name)困惑了好久,今天专门抽时间把它们的使用细节弄清了. 一.设置hostname/fqdn 在Linux系统内设置hostname很简单,如: $ hostname florian 如果要设置fqdn的话,需要对/etc/hosts进行配置. $ cat /etc/hosts 127.0.0.1 localhost 192.168.1.1 florian.test.com florian /et…
转载   原文:python 获取日期 作者:m4774411wang python 获取日期我们需要用到time模块,比如time.strftime方法 time.strftime('%Y-%m-%d',time.localtime(time.time())) 最后用time.strftime()方法,把刚才的一大串信息格式化成我们想要的东西,现在的结果是: 2013-03-31 time.strftime里面有很多参数,可以让你能够更随意的输出自己想要的东西: 下面是time.strftim…
最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题.摘要获取下来. 还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉.. 想到的方法自然是通过python利用正则表达式对ACM的KDD网页进行字符串匹配,获得相应的网页字符串,然后将所有html的标签删除(例如<div></div>等), 将这些标签删除之后,就能够得…
python获取字母在字母表对应位置的几种方法及性能对比较 某些情况下要求我们查出字母在字母表中的顺序,A = 1,B = 2 , C = 3, 以此类推,比如这道题目 https://projecteuler.net/problem=42 其中一步解题步骤就是需要把字母换算成字母表中对应的顺序. 获取字母在字母表对应位置的方法,最容易想到的实现的是: 使用str.index 或者str.find方法: In [137]: "ABC".index('B') Out[137]: 1 In…
python获取文件大小 # !/usr/bin/python3.4 # -*- coding: utf-8 -*- import os # 字节bytes转化kb\m\g def formatSize(bytes): try: bytes = float(bytes) kb = bytes / 1024 except: print("传入的字节格式不对") return "Error" if kb >= 1024: M = kb / 1024 if M &g…
python 获取一个列表有多少连续列表 例如 有列表 [1,2,3] 那么连续列表就是 [1,2],[2,3],[1,2,3] 程序实现如下: 运行结果:…
发展历程: <selenium_webdriver(python)第一版>   将本博客中的这个系列整理为pdf文档,免费. <selenium_webdriver(python)第二版>    加入的单元测试框架unittest,用其组织和运行测试用例, 5元. <selenium_webdriver(python)第三版>    整合和HTML测试报告的生成,初步形成测试架构的雏形, 8元. <selenium2 python 自动化测试实战>    …
python获取当前时间的前一天,前一周,前一个月. 实用python的datetime.timedelta方法,避免了有的月份是30和31等不同的情况. 获取前一个月的时间,方法实现:首先datetime.datetime.now获取当前时间,然后通过datetime.timedelta获取上一个月最后一天的datetime对象dayto,最后用dayto的数据初始化这个月的第一个天和最后一天的datetime对象. import datetime d = datetime.datetime.…
Python获取指定路径下的子目录和文件有两种方法: os.listdir(dir)和os.walk(dir),前者列出dir目录下的所有直接子目录和文件的名称(均不包含完整路径),如 >>> os.listdir(r'E:')['$RECYCLE.BIN', 'Download', 'test.txt', 'data', 'MyDownloads', 'System Volume Information', 'VSPath', 'Youku Files']>>> 后者…
/*********************************************************************** * Python 获取 网卡 MAC 地址 * 说明: * 记录一下Python如何获取网卡MAC地址,主要用于数据唯一性保存. * * 2016-10-15 深圳 南山平山村 曾剑锋 **********************************************************************/ 一.参考文档: pyth…
python 获取 mac 地址 的例子,有需要的朋友可以参考下. #!/bin/python import os import re def GetMac():     if os.name == 'nt':         try:             ret = ''             CmdLine = 'ipconfig /all'             r = os.popen(CmdLine).read()             if r:              …
其实最好的办法是写个单独的脚本去查找IP,但是如果实在不愿意单写一个脚本文件,也可以直接将代码嵌入.bashrc中 在~/.bashrc下加入下面这行代码即可使用python获取本机的wlan的IP地址并导出到MY_IP变量中 export MY_IP=$(python -c "import re;e = re.search(r'wlan\d+ Link encap\:Ethernet HWaddr \w{2}\:\w{2}\:\w{2}\:\w{2}\:\w{2}\:\w{2} inet ad…
Python获取mac 获取计算机名字和ip(内网ip) 指定网卡ip…
在python中获取ip地址和在php中有很大不同,在php中往往比较简单.那再python中怎么做呢? 我们先来看一下python 获得本机MAC地址: 1 2 3 4 import uuid def get_mac_address():      mac=uuid.UUID(int = uuid.getnode()).hex[-12:]      return ":".join([mac[e:e+2] for e in range(0,11,2)]) 下面再来看一下python获取…
今天我们来看一下如何用python获取网络时间和本地时间,直接上代码吧,代码中都有注释. python获取网络时间 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 获取网络时间  def getBeijinTime():      """   获取北京时间      """      try:          conn = httplib…
Python 获取时间通过 time 模块 如下代码,是通过获取当前的时间,按照格式输出 Python默认获取当前的时间返回的都是时间的元组,下面是元组的,字符串时间的一个转换输出 # -*- coding:utf-8 -*- import time #Python 获取时间戳 #Python 默认获取的时间是一个具有时间的元组,asctime() 是接受时间元祖,返回一个时间字符串 TimeTuple=time.localtime(time.time()) #获取当前的时间返回一个时间元组 p…