python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

结合个人需求，从某个网站获取一些数据，发现网页链接是隐藏的，需要通过浏览器看后面的代码来获取真实的链接。

下面这个案例，直接是从真实的链接中爬去数据。

此外，发现用pandas的read_html不能直接解析“lxml”的表格，有待后续研究。

另外，爬去的数据发现有很多空格符号，主要是 "\r"、"\n"、"\t"，

字符串的去除 "\r"、"\n"、"\t" 的方法也一并添加在这个案例中。

具体代码如下：

 # Code based on Python 3.x

 # _*_ coding: utf-8 _*_

 # __Author: "LEMON"

 from bs4 import BeautifulSoup

 import requests

 import csv

 url2 = 'http://ets.cnemission.com/carbon/portalIndex/markethistory?Top=1'

 req = requests.get(url2)

 # soup = BeautifulSoup(req.content, 'html5lib')

 soup = BeautifulSoup(req.content, 'lxml')

 # 用“lxml”解析，可以获得数据，但csv文件中每行有空行

 table = soup.table

 trs = table.find_all('tr')

 list1 = []

 for tr in trs:

     td = tr.find_all('td')

     # 去除每个单元格数据后面的"\r"和"\n"和"\t"，

     # 下面两种方法都可以生成csv文件，

     # 但method1生成的csv文件较小，应该是优化性能较好，暂时不明白其中原理

     # method1

     row = [i.text.replace('\r', '').replace('\n', '').replace('\t', '') for i in td]

     # method 2

     # row = [i.text.replace('\r\n\t', '') for i in td]

     list1.append(row)

 with open('MktDataGuangdong.csv', 'a', errors='ignore', newline='') as f:

     f_csv = csv.writer(f)

     f_csv.writerows(list1)

python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）的更多相关文章

python3实践-从网站获取数据(Carbon Market Data-BJ) （pandas，bs4）
自己边看边实践一些简单的实际应用,下面的程序是从某个网站上获取需要的数据. 在编写的过程中,通过学习陆续了解到一些方法,发现Python真的是很便捷. 尤其是用pandas获取网页中的表格数据,真的是 ...
Python Socket请求网站获取数据
Python Socket请求网站获取数据 ---阻塞 I/O ->收快递,快递如果不到,就干不了其他的活 ---非阻塞I/0 ->收快递,不断的去问,有没有送到,有没有送到,. ...
ASP.NET Web API实践系列07,获取数据, 使用Ninject实现依赖倒置,使用Knockout实现页面元素和视图模型的双向绑定
本篇接着上一篇"ASP.NET Web API实践系列06, 在ASP.NET MVC 4 基础上增加使用ASP.NET WEB API",尝试获取数据. 在Models文件夹下创 ...
CTreeItem保存和获取数据
保存数据: std::string val = "test data"; CString* pNodeData = new CString; *pNodeData = val.c_ ...
《大型网站系统与JAVA中间件实践》读书笔记-数据访问层
数据访问层 5.1.2数据库垂直/水平拆分的困难随着网站业务的快速发展,数据量和访问量不断上升,数据库的压力越来越大. 更换更好的硬件(Scale Up)是一种解决方案,而且在我们能付得起硬件费用并 ...
Python3爬取王者官方网站英雄数据
爬取王者官方网站英雄数据众所周知,王者荣耀已经成为众多人们喜爱的一款休闲娱乐手游,今天就利用python3 爬虫技术爬取官方网站上的几十个英雄的资料,包括官方给出的人物定位,英雄名称,技能名称,CD ...
Python3.x：定时获取页面数据存入数据库
Python3.x:定时获取页面数据存入数据库 #间隔五分钟采集一次数据入库 import pymysql import urllib.request from bs4 import Beautifu ...
HttpWebRequest 模拟网站登录获取数据
此文档仅仅是一个BaseCode,已做后续查阅项目使用IBM Platform Symphony分布式平台,所有业务处理都在这个分布式平台上计算,需求是获取这些计算机机群的运行状态,和每一个服务的的 ...
winpcap编程设置过滤器之指定获取某个网站的数据
下面,我将以乱世隋唐页游为例,通过编码获取这里面的数据. 游戏图: 我是乱世隋唐的网址是:www.917st.com 这个是官网网址的服务器地址. 42.62.0.14 我玩的游戏服是84区.网 ...

随机推荐

持续集成之Jenkins安装部署
1.系统环境和安装java环境 [root@devops ~]# cat /etc/redhat-release CentOS Linux release 7.3.1611 (Core) 安装java ...
多线程---iOS-Apple苹果官方文档翻译
本系列所有开发文档翻译链接地址:iOS7开发-Apple苹果iPhone开发Xcode官方文档翻译PDF下载地址(2013年12月29日更新版) 多线程技术博客http://www.cnblo ...
POJ 2533 Longest Ordered Subsequence LIS O(n*log(n))
题目链接最长上升子序列O(n*log(n))的做法,只能用于求长度不能求序列. #include <iostream> #include <algorithm> using ...
input file 文件上传,js控制上传文件的大小和格式
文件上传一般是用jquery的uploadify,比较好用.后面会出文章介绍uploadify这个插件. 但是,有时候为了偷懒,直接就用input 的file进行文件和图片等的上传,input fil ...
土司论坛nc反弹神器使用方法
说明: PS:我本机是linux,因为没有服务器所以使用win7来演示．倘若你是windows可以在本机生成dll以后再放到服务器上面去执行dll即可反弹shell物理机ip:192.168.1.12 ...
Linux汇编教程01: 基本知识
在我们开始学习Linux汇编之前,需要简单的了解一下计算机的体系结构.我们不需要特别深入的了解,理解了一些基本概念对与我们理解程序会很有帮助.现在计算机的结构体系都是采用冯诺依曼体系结构的基础上发展过 ...
1.Firedac开门篇
firedac是Delphi开发跨平台的数据库应用程序的通用数据访问组件,同样适用于C++ Builder和FreePascal.firedac可以高速直接访问: 1.InterBase 2.SQLi ...
HDU 6112 今夕何夕蔡勒公式
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=6112题意:中文题目分析:关键点在与如何计算一个日期是星期几,这个可以通过蔡勒公式来计算.基姆拉尔森计 ...
vue-router 基础
安装 NPM npm install vue-router 如果在一个模块化工程中使用它,必须要通过 Vue.use() 明确地安装路由功能: import Vue from 'vue' import ...
[hadoop][会装]HBase集群安装--基于hadoop ha模式
可以参考部署HBase系统(分布式部署) 和基于无HA模式的hadoop下部署相比,主要是修改hbase-site .xml文件,修改如下参数即可: <property> <name ...

python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）

python3实践-从网站获取数据(Carbon Market Data-GD) （bs4/Beautifulsoup）的更多相关文章

随机推荐

热门专题