python爬虫踩坑教程
我们的目标是爬取下面这个个网址上的2010~2018年的数据
http://stockdata.stock.hexun.com/zrbg/Plate.aspx?date=2015-12-31
获取我们需要的表格中的某些列的数据
(这是我从我的微信公众号帮过来的文章)
第一步,我们首先用谷歌浏览器查看网页源码,但是可以说现在的数据都是js动态传输不可能会在原始网页上显示,所以这一步其实是没用的。
第二步,我们分析网页元素,ctrl+shift+c
依然没有多大用,因为每一页只显示20条数据,而且我们发现点下一页的时候,网页网址并没有跳转或改变
这时只能看network元素了
我们知道了数据都是通过这个链接去获取的http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=1&callback=hxbase_json11556366554151
通过尝试发现,有用的参数只有page和count
page表示第几页,count表示每页采集多少条数据
第三步,现在我们开始写代码
第一次我们遇到了403错误,因为我们直接发送url,没有对头部进行代理设置,所以被反爬了。
第二次,纠结urllib2和urllib和requests用哪个
1)下面是urllib的使用
import urllib.request
req = urllib.Request(url)
req = urllib.request.Request(url)
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","stockdata.stock.hexun.com")
#使用read()方法才能读取到字节而不是httpresopnse
#同时out必须是写入str而不是字节
content = urllib.request.urlopen(req).read()
发现read方法得到的只是字节而不是字符串,然后我就不知道怎么办了,放弃。,使用requests
2)Requests
requests模块的介绍: 能够帮助我们发起请求获取响应
response常见的属性:
response.text 响应体 str类型
respones.content 响应体 bytes类型
response.status_code 响应状态码
response.request.headers 响应对应的请求头
response.headers 响应头
response.request._cookies 响应对应请求的cookie
response.cookies 响应的cookie(经过了set-cookie动作)
解决网页的解码问题:
response.content.decode()
response.content.decode("GBK")
基本使用:
1.requests.get(url,headers,params,cookies,proxies)
headers:字典 请求头
cookies: 字典 携带的cookie
params: 字典 url地址的参数
proxies: 字典 代理ip
2.requests.post(url,data,headers)
data: 字典 请求体
requests发送post请求使用requests.post方法,带上请求体,其中请求体需要时字典的形式,传递给data参数接收
在requests中使用代理,需要准备字典形式的代理,传递给proxies参数接收
第三次,试了一下post方法,除了200,什么都没返回,说明和network上显示的一样,只能get方法。
第四次,得到的json数据,想要用load方法去解析json,可惜网页得到的json格式不是正宗的,比如key没有双引号,只能用正则表达式去处理
JSON到字典转化:
》》》dictinfo = json.loads(json_str) 输出dict类型
字典到JSON转化:
》》》jsoninfo = json.dumps(dict)输出str类型
比如:
info = {'name' : 'jay', 'sex' : 'male', 'age': 22}
jsoninfo = simplejson.dumps(info)
print jsoninfo Unicode到字典的转化:
》》》 json.loads()
比如:
import json
str = '{"params":{"id":222,"offset":0},{"nodename":"topic"}'
params = json.loads(str)
print params['params']['id']
原始json数据
hxbase_json1(
{
sum:3591,
list:[
{
Number:'21',
StockNameLink:'stock_bg.aspx?code=002498&date=2016-12-31',
industry:'���¹ɷ�(002498)',
stockNumber:'20.98',
industryrate:'76.92',
Pricelimit:'B',
lootingchips:'10.93',
Scramble:'15.00',
rscramble:'23.00',
Strongstock:'7.01',
Hstock:' <a href="http://www.cninfo.com.cn/finalpage/2017-04-27/1203402047.PDF" target="_blank"><img alt="" src="img/table_btn1.gif"/></a>',
Wstock:'<a href="http://stockdata.stock.hexun.com/002498.shtml" target="_blank"><img alt="" src="img/icon_02.gif"/></a>',
Tstock:'<img "="" alt="" code="" codetype="" onclick="addIStock(\'002498\',\'1\');" src="img/icon_03.gif"/>'
},
{Number:'22',
StockNameLink:'stock_bg.aspx?code=002543&date=2016-12-31',
industry:'��͵���(002543)',
....}
]
})
正则表达式
p1 = re.compile(r'[{](.*)[}]', re.S) #最大匹配
p2 = re.compile(r'[{](.*?)[}]', re.S) #最小匹配
res = re.findall(p1, r.text)
得到的是一个len为1 的list,是最外层{}里面的内容
res = re.findall(p2, res[0])
得到的是一个len为最里层{}数目 的list,是最里层{}里面的内容
第五次,编码问题
outfile = open(filename, 'w', encoding='utf-8')
打开的时候指定编码方式,解决
代码
#coding=utf-8
import requests
from bs4 import BeautifulSoup
import json
import re date=["","","","","","","","",""]
#url = r'http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date=2016-12-31&count=20&pname=20&titType=null&page=2'
firsturl = r'http://stockdata.stock.hexun.com/zrbg/data/zrbList.aspx?date='
dayurl ="-12-31"
num = 0 header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36",
"Host":"stockdata.stock.hexun.com"} for num in range(2,6):
print("start year :",date[num])
filename = 'D:\\company'+date[num]+'.txt'
print("store file is:", filename)
outfile = open(filename, 'w', encoding='utf-8')
pagenum = 1
content = ""
for pagenum in range(1,40): url = firsturl + date[num] + dayurl + "&count=100&page=" + str(pagenum)
print(url) r = requests.get(url, headers=header) p1 = re.compile(r'[{](.*)[}]', re.S)
p2 = re.compile(r'[{](.*?)[}]', re.S)
res = re.findall(p1, r.text) # print("len:",len(res))
# print(res)
res = re.findall(p2, res[0])
print("len:",len(res))
if (len(res) == 0):
print("this page had not enough 100 datas, proving this year fininshed")
break for i in res:
content += date[num] + "\t"
para = i.split(",")
for j in para:
#print(j)
attr = j.split(":")
#print(attr[1])
if ((attr[0] == 'Number') | (attr[0] == "industry")|(attr[0] == "industryrate")\
|(attr[0] =="Pricelimit") | (attr[0] == "stockNumber")\
|(attr[0] =="lootingchips") | (attr[0] == "Scramble") \
|(attr[0] =="rscramble") | (attr[0] == "Strongstock")):
content += attr[1][1:-1] + "\t"
content+="\n"
#print(content) print(date[num],"done")
outfile.write(content)
outfile.close()
python爬虫踩坑教程的更多相关文章
- 《Python爬虫学习系列教程》学习笔记
http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多.学习过程中我把一些学习的笔记总结下来,还记录了一些自己 ...
- Python爬虫框架Scrapy教程(1)—入门
最近实验室的项目中有一个需求是这样的,需要爬取若干个(数目不小)网站发布的文章元数据(标题.时间.正文等).问题是这些网站都很老旧和小众,当然也不可能遵守 Microdata 这类标准.这时候所有网页 ...
- [转]《Python爬虫学习系列教程》
<Python爬虫学习系列教程>学习笔记 http://cuiqingcai.com/1052.html 大家好哈,我呢最近在学习Python爬虫,感觉非常有意思,真的让生活可以方便很多. ...
- Python爬虫学习系列教程
最近想学一下Python爬虫与检索相关的知识,在网上看到这个教程,觉得挺不错的,分享给大家. 来源:http://cuiqingcai.com/1052.html 一.Python入门 1. Pyth ...
- python 爬虫新手入门教程
python 爬虫新手教程 一.什么是爬虫 爬虫就是把一个网站里的内容读取下来 这里我们就要学习一个知识 我们看到的网页是有一种叫HTML的语言编写的 他可以给文字显示不同的样式 如:<p> ...
- python爬虫-爬坑之路
背景简介 爬取外国的某两个网站的数据,网站都没有被墙,爬取三种数据. A: 爬取页面并存储到数据库 B: 爬取页面内的表格内数据并存储到数据库 C: 爬取页面,分析页面并将页面的所有数据分类存入数据库 ...
- 利用树莓派跑python爬虫的简单教程——从无到有
因为学校项目的原因入手了树莓派,到手先折腾了两天,发现网上的教程大都是拿他搭建服务器,mail,或者媒体服务器之类,对于在学校限时的宽带来说有点不太现实,不过低功耗适合一直开着的确启发了我.所以想到拿 ...
- Windows+Apache+Python+Django 踩坑记录
摘要 使用Python进行Web项目开发:相对于主流三大Web端解决方案(Java/.NET/PHP) Python在某些方面具有一定的优势,相对 Java/.NET 有更轻量级的部署方案,相对PHP ...
- Python爬虫快速上手教程
1 这个是什么 整理Python中requests常用的API 2 代码 from bs4 import BeautifulSoup import requests import re ...
随机推荐
- Nginx服务器导致CSS无法解析不起效果
最近部署一个项目html,js正常加载,css也没有报404,css能够正常获取,只是浏览器无法解析,研究了一下发现,原来是配置Nginx的时候将/etc/nginx/nginx.conf的一行inc ...
- Fibonacci数列的解法
Fibonacci数列的解法: 1.递归算法 递归的概念,我说不清楚,语文不好.但是核心思想,我认为就是入栈出栈.比方说,你想要求得某个结果,如果一步求解不出来,那么先把最后一步的计算步骤进栈,先不考 ...
- Qtp自动测试工具
QTP是基于GUI界面的自动化测试工具,用于系统的功能测试. QTP录制的是鼠标和键盘的消息.QTP录制回放时基于windows操作系统的消息机制.QTP在录制时监听应用程序的消息,监听到之后把消息放 ...
- PAT1086:Tree Traversals Again
1086. Tree Traversals Again (25) 时间限制 200 ms 内存限制 65536 kB 代码长度限制 16000 B 判题程序 Standard 作者 CHEN, Yue ...
- HTTP认证方式详解
HTTP请求报头: Authorization HTTP响应报头: WWW-Authenticate HTTP认证 基于 质询 /回应( challenge/response)的认证模式. ◆ ...
- 破解跳过QQ群验证--真实有效哦。
说明:此教程可以实现强行加入别人的群,无需群主或管理员同意.来自于吾爱破解.跟着做了下,应该不用什么技术含量,因为啥也不懂的我也做到了最后.哈哈! 附上软件:https://pan.baidu.com ...
- 分布式计算框架Gearman原理详解
什么是Gearman? Gearman提供了一个通用的应用程序框架,用于将工作转移到更适合于工作的其他机器或流程.它允许你并行工作,负载平衡处理,并在语言间调用函数.它可用于从高可用性网站到传输数据库 ...
- C#通熟易懂观察者模式
观察者模式(有时又被称为模型-视图(View)模式.源-收听者(Listener)模式或从属者模式)是软件设计模式的一种.将观察者(watcher)和被观察者(subject)完美分离. 这里讲一个场 ...
- Linux下解压后缀名为".tar.xz"的文件
作者:荒原之梦 原文链接:http://zhaokaifeng.com/?p=576 1 解压".xz" xz -d your_file_name.tar.xz 注:运行上述命令后 ...
- ansj人名识别
1.前言 ansj人名识别会用到两个字典,分别是:person/asian_name_freq.data.person/person.dic. 1.1.asian_name_freq.data 这是一 ...