第一次接触HtmlAgilityPack是在5年前,一些意外,让我从技术部门临时调到销售部门,负责建立一些流程和寻找潜在客户,最后在阿里巴巴找到了很多客户信息,非常全面,刚开始是手动复制到Excel,是真尼玛的累,虽然那个时候C#还很菜,也想能不能通过程序来批量获取(所以平时想法要多才好).几经周折,终于发现了HtmlAgilityPack神器,这几年也用HtmlAgilityPack采集了很多类型数据,特别是足球赛事资料库的数据采集以及天气数据采集,都是使用HtmlAgilityPack,所以…
Python数据网络采集5--处理Javascript和重定向 到目前为止,我们和网站服务器通信的唯一方式,就是发出HTTP请求获取页面.有些网页,我们不需要单独请求,就可以和网络服务器交互(收发信息),那么这个网页可能采用了Ajax技术来加载数据.使用以前的采集方法,可能只能采集到加载之前的数据,重要的数据就抓不到了. 和Ajax一样,动态HTML(DHTML)也是一系列用于解决网络问题的技术集合.DHTML用客户端语言,如JavaScript控制页面的HTML元素.经常,在我们采集网站时,从…
本文更新(移步查阅): 19-04-15 新采集了2018的省市区三级坐标和行政区域边界 19-03-22 采集了2018的城市数据 18-11-28 采集了2017的城市数据 数据下载 GitHub:https://github.com/xiangyuecn/AreaCity-JsSpider-StatsGov/releases 相关更新情况,请查阅我发布的其他文章,本文以下内容不再更新. 18-01-28早上6:30的火车,从三亚回老家,票难买啊.好激动~ 声明:文中涉及到的数据和第三方接口…
有很多朋友都需要把天猫的商品迁移到微店上去.可在天猫上的商品数据非常复杂,淘宝开放接口禁止向外提供数据,一般的采集器对ajax数据采集的支持又不太好. 还有现在有了火蜘蛛采集器,经过一定的配置,终于把天猫商品的数据都采集下来了(SKU信息,运费信息,库存信息,图片,商品描述等).天猫商品网页的确是很复杂,比如商品描述,还有商品描述中的图片,使用的都是懒加载,只有当用户滚动到那里了,才会去加载描述和图片.还好这些都难不倒火蜘蛛采集器.当然了,采集回来的信息也是很复杂的,需要我们清楚了解淘宝的商品数…
如何通过FILEBEAT,LOGSTASH,ES,KIBNA实现数据的采集总体参考网址:https://www.olinux.org.cn/elk/1157.html官方网址:https://www.elastic.co/guide/en/beats/filebeat/6.2/filebeat-getting-started.html 第一步 启动ES,ES的安装请自行百度第二步 启动LOGSTASH,LOGSTASH的安装请自行百度启动命令../bin/logstash -f logstash…
基于Python结合InfluxDB及Grafana图表实时采集Linux多主机性能数据   by:授客 QQ:1033553122 实现功能 测试环境 环境搭建 使用前提 使用方法 运行程序 效果展示 实现功能 无需在被监控主机上安装代理,一键对Linux远程服务器不同主机执行性能监控.性能数据采集命令,并实时展示 支持跨堡垒机收集实时性能数据(注:定制化开发,非通用) 支持docker容器(因为程序实现是从docker容器内部获取性能数据,所以目前仅支持 CPU,内存,I/O) 使用前提 可…
本文描述的是对国家统计局于2019-01-31发布的<2018年统计用区划代码和城乡划分代码(截止2018年10月31日)>的采集. 相对于用于和采集2016版.2017版的js代码做了比较大的优化和调整,就开一遍文章来介绍这个V2版本.老版本文章. 本文更新(移步查阅): 19-04-15 新采集了2018的省市区三级坐标和行政区域边界 19-03-22 采集了2018的城市数据 数据下载 GitHub:https://github.com/xiangyuecn/AreaCity-JsSpi…
这个问题困扰了我很长一段时间,而且如果这个问题不解决,就有一个无法调和的矛盾:执行Init_Clk函数,能采集到二氧化碳接口485数据,但是功耗大:不执行Init_Clk函数,不能采集到二氧化碳接口485数据,但是功耗小.这个矛盾在这次的低功耗应用中可要了命了,我的要求是:既要能采集到所有数据,还要功耗低. 不执行Init_Clk函数,采集二氧化碳接口485数据时,表现出来的现象是:485传感器没有任何响应,就好像没有给485传感器发过采集命令似的.但是我用板子直接连接pc测试却是好的,pc确实…
概要 本文将介绍使用GoldData半自动登录功能,来采集需要登录网站的数据.GoldData半自动登录功能,就是指通过脚本来执行登录,如果需要验证码或者其它内容需要人工输入时,可以通过收发邮件来执行登录流程. 下载例子 为了讲解方便,我们以采集mydict的单词数据来讲解采集需要登录的网站数据.这个mydict例子程序可以从开源网站下载到( https://github.com/TheGoldData/mydict/releases ,或 https://gitee.com/golddata/…
服务追踪数据使用 RabbitMQ 进行采集 + 数据存储使用 Elasticsearch + 数据展示使用 Kibana https://www.cnblogs.com/xishuai/p/elk-elasticsearch-kibana.html 阅读目录: ELK Stack 简介 环境准备 安装 Elasticsearch 安装 Kibana Kibana 使用 Elasticsearch 命令 最近在开发分布式服务追踪,使用 Spring Cloud Sleuth Zipkin + S…