(转)Python新手写出漂亮的爬虫代码2—

https://blog.csdn.net/weixin_36604953/article/details/78592943

Python新手写出漂亮的爬虫代码2——从json获取信息
好久没有写关于爬虫的东西了，如果正在读这篇博客的你看过我的另一篇《Python新手写出漂亮的爬虫代码1——从html获取信息》想必已经对一些写在html中的信息进行过爬取了，今天给大家介绍一下另一种爬虫——动态爬虫。

1.静态爬虫与动态爬虫
何为动态爬虫，html中的信息是静态的，或者说是通过html语言生成了网页中的对应信息，是写好的，你把网页的html源代码粘贴过来，你要的信息就在里面，这种情况下就是静态爬虫，而有的时候我们会发现我们需要的信息不在html源码中，比如电商网站的评论，某些网站的一些条形图啊，折线图啊，（这些图实际上是数字，只是通过某种接口传到网页上，然后渲染成了图的形式，其本质上是数字），这些可能频繁更新的信息（比如评论每小时甚至每分钟都在更新），这时候，如果将它写在html中，是一个很难受的过程，因为有一个新评论你就要改写html，所以对于这种情况，我们想要的数据都会存在一个json文件中。

这里需要做一个说明，我们看网页源代码，通过在网页上鼠标邮件，点选“查看网页源代码”出来的才是html源码，而通过F12调出的开发者工具中的element或元素中的那些，不是html代码，而是html代码的一个超集，它比真实的html代码内容要多，所以查看信息是否在html中还是需要点选“查看网页源代码”才准确。

2.json
json是一种数据格式，类似于python中的字典，以key:value的形式存储信息，是一种目前越来越常用的方便的数据存储方式。

3.动态爬虫思路
动态爬虫较静态爬虫而言难点在于定位数据或信息的存储位置，而一旦获取了这个位置（json文件对应的url），那么就非常简单了，使用python的json库可以对json数据轻松的解析，说白了只是根据你要的key提取其value而已，所以动态爬虫是比较简单的（当然，这里还有另一个问题，是异步加载问题，这个以后有机会再讲，异步加载是啥？比如说某个网页，没有“下一页”按钮，而是用鼠标滚轮或者屏幕右侧的滑块，向下滑就会刷新，你连往下刷多久会到底都不知道，这就是异步加载，异步加载可以通过抓包工具去解决，也可以使用selenium模拟鼠标点击去解决，以后会讲到）。

4.定位json存储位置
定位json的位置通常是通过“换页”来查看Network的变更，在网页上按F12打开开发者工具，界面放到Network中，然后换页，查看“js”或是“XHR”中文件的更新，然后一一查看更新的json文件，来定位我们需要的信息在哪里。

5.实例讲解
说了这么多你可能还是有点儿糊涂，没关系，来个例子就懂了，就拿天猫的一个女装来说吧，其url为https://detail.tmall.com/item.htm?spm=a1z10.3-b-s.w4011-14681080882.119.17398fc89ncLzj&id=529355863153&rn=ec60f51904f6286d9b2d8bb02c8ca5a8&abbucket=5
（这个模特身材还不错哈哈）

请看图1，我们点击红色方块中的“累计评价”，就可以看到以往的评价，按照我们前一篇爬虫的讲解来说，这个信息可能在html代码中，好，那么我们看一看，按下F12，如图2所示。

图1
图2中的1和2位置可以看到，评论仿佛是在一个标签中的，但是还记得我前面的说明么，你在这里看到的html代码是真实html代码的一个超集，比实际的html代码要多，那么我们右键鼠标，选择“查看网页源代码”，并把源码复制粘贴到文本编辑器中，查找图2中1对应的评论，结果如图3所示。

图2
图3中竟然没有搜索到这个评论，也就是说图2的开发者工具欺骗了我们，too young too sample，sometime naive，哈哈，没关系，以后每次爬虫之前都这么看一看，就知道你要的信息是不是在html中了。好了，既然不在html中，那么我们需要去寻找我们想要的信息在哪里了。

图3
按照图4，在开发者工具中选择“Network”，来查看网页其他组件信息。

图4
如图5的红色方块，点击“JS”，不出以外应该是空的，当然如果你那里不是空的也无所谓，无伤大雅，我们要的数据就在JS下，只是现在还未显示出来（还有一些情况，尤其是折线图这些图像形式的数据，一般会存储在XHR下，也就是图5中的粉色圈中，也是.json形式的），接下来我们就要去寻找存储评论数据的json文件了。

图5
此时“JS”下的界面如图5所示，有可能是空的，当然也可能会有一些其他的东西，接下来看图6，点击图6中A处页码“2”，将评论页切换到第二页，这时候你会发现B处，也就是JS界面中出现了一个文件（如果你先前图5中有内容，那此时应该是多出一个文件），这个文件叫“list-detail**********”。我们的数据就存放在这里。

有些时候，你换页后可能会出现或新增多个json文件，不过一般都不会很多，最多也就5个，你只需要挨个点进去看看哪个存放了你需要的信息即可。

图6
接下来，我们双击这个文件，或者单击选中这个文件，复制其url然后粘贴到浏览器的地址栏中也可，其内容如图7所示，这里红框标出了其前三条评论。因为我们是在评论的第二页打开的这个json，所以它对应的是第二页的评论内容，而网页中第二页评论的前三条如图8所示。

图7
可以看到，数据对上了，我们已经成功的定位到了评论的位置，图7的json诚如各位所见，是一个字典的形式，评论内容对应的key为”rateContent”。

图8
接下来看一下评论的页码是怎么控制的。如图9所示，其实两个url只差了之歌数字，就是图9红框标出的”currentPage=”后面的数字，如果是第一页，数字就是1，如果是第二页，数字就是2。好了，换页规律找到了，剩下就是解析json了，就是最简单的一步。

图9
关于json的解析我不准备过多解释了，有python基础的朋友一定对json这个库不陌生，我在代码中以注释的方式给出吧。本例代码使用Python3。

6.代码实战
import urllib
import urllib.request
import re
from bs4 import BeautifulSoup
import time
import random
import json
import math

# 创建一个文件存储评论及其他数据
myfile = open("tm_fz_gn_1_1_1.txt","a")
# 共获取四个变量，评论者昵称，是否超级会员，评论时间，评论内容
print("评论者昵称","是否超级会员","评论时间","comment",sep='|',file=myfile)
stop = random.uniform(0.5,2)

# 获取页数
try:
url0 = "https://rate.tmall.com/list_detail_rate.htm?itemId=544442011638&spuId=718591114&sellerId=196993935&order=3¤tPage=1&append=0&content=1&tagId=&posi=&picture=&ua=025UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5Ockp3S39AeU13QnhDeC4%3D%7CU2xMHDJ7G2AHYg8hAS8XIw0tA18%2BWDRTLVd5L3k%3D%7CVGhXd1llXWBcaFduWmBVb1RvWGVHe0Z9SXRLc05zRnlDfkZ6VAI%3D%7CVWldfS0TMww1CioWIgIsCCNMMWwyVDlrME8iakFhXn5BZEocSg%3D%3D%7CVmhIGCUFOBgkGiMXNwwzBzsbJxkiGTkDOA0tES8ULw81Cj9pPw%3D%3D%7CV2xMHDIcPAA%2FASEcPAM4Az9pPw%3D%3D%7CWGBAED4QMGBaZ1p6RXBKc1NoXWBCfUh0S3NTbVBqSnROblBkMhIvDyEPLxciGSx6LA%3D%3D%7CWWBdYEB9XWJCfkd7W2VdZ0d%2BXmBdfUF0Ig%3D%3D&isg=AnBwr9DL3fao4YAwe7Eb61VPQT4CEVRrBvSVMGrBPUueJRHPEskkk8YHCxu-&needFold=0&_ksTS=1501924984733_1070&callback=jsonp1071"
req0 = urllib.request.Request(url0)
req0.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
html0 = urllib.request.urlopen(req0,timeout=500).read()
html0 = bytes.decode(html0,encoding="gbk")
# print(type(html0))
'''
下面这一步是因为这个json不是标准的json，json是一个完完全全的字典，而这个json是在类似json1234()这个结构的括号中，打开看看这个json你就懂了，所以需要用正则表达式去获取真实的json（即字典）
'''
js0 = re.search('{"rateDetail(.*)',html0).group()[:-1]
# 将json主要内容存入content
content0 = json.loads(js0)
content = content0['rateDetail']
# print(content.keys())
# print(json.dumps(content0, sort_keys=True, indent=2))
#尾页
lastpage = int(content['paginator']['lastPage'])
except:
print("获取尾页失败，默认爬取99页")
lastpage = 99

# 构造循环遍历每一页
for i in range(1,lastpage):
try:
url = 'https://rate.tmall.com/list_detail_rate.htm?itemId=544442011638&spuId=718591114&sellerId=196993935&order=3¤tPage='+str(i)+'&append=0&content=1&tagId=&posi=&picture=&ua=025UW5TcyMNYQwiAiwQRHhBfEF8QXtHcklnMWc%3D%7CUm5Ockp3S39AeU13QnhDeC4%3D%7CU2xMHDJ7G2AHYg8hAS8XIw0tA18%2BWDRTLVd5L3k%3D%7CVGhXd1llXWBcaFduWmBVb1RvWGVHe0Z9SXRLc05zRnlDfkZ6VAI%3D%7CVWldfS0TMww1CioWIgIsCCNMMWwyVDlrME8iakFhXn5BZEocSg%3D%3D%7CVmhIGCUFOBgkGiMXNwwzBzsbJxkiGTkDOA0tES8ULw81Cj9pPw%3D%3D%7CV2xMHDIcPAA%2FASEcPAM4Az9pPw%3D%3D%7CWGBAED4QMGBaZ1p6RXBKc1NoXWBCfUh0S3NTbVBqSnROblBkMhIvDyEPLxciGSx6LA%3D%3D%7CWWBdYEB9XWJCfkd7W2VdZ0d%2BXmBdfUF0Ig%3D%3D&isg=AnBwr9DL3fao4YAwe7Eb61VPQT4CEVRrBvSVMGrBPUueJRHPEskkk8YHCxu-&needFold=0&_ksTS=1501924984733_1070&callback=jsonp1071'
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
html = urllib.request.urlopen(req,timeout=500).read()
html = bytes.decode(html,encoding="gbk")
js = re.search('{"rateDetail(.*)', html).group()[:-1]
infos0 = json.loads(js)
infos = infos0['rateDetail']['rateList']
tiaoshu = 0
for info in infos:
try:
tiaoshu += 1
time.sleep(stop)
ss = "正在爬取第%d页的第%d条评论,共%d页" % (i,tiaoshu,lastpage)
print(ss)
# 用户姓名
try:
user_name = info['displayUserNick'].strip().replace('\n','')
except:
user_name = ""
# 是否黄金会员
try:
user_status = info['goldUser'].strip().replace('\n','')
except:
user_status = ""
# 评论时间
try:
comment_date = info['rateDate'].strip().replace("\n","")
except:
comment_date = ""
# 评论内容
try:
comment = info['rateContent'].strip().replace("\n","").replace('\t','')
except:
comment = ""
print(user_name,user_status,comment_date,comment,sep='|',file=myfile)
except:
sss = '爬取第%d页的第%d条评论失败,跳过爬取' % (i,tiaoshu)
print(sss)
pass
except:
print("该产品url获取失败，请检查")
myfile.close()
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
到此，爬虫的第二课——从json获取信息就结束了，以后会陆续退出selenium、异步加载、scrapy的使用教学和案例。敬请关注哈~
---------------------
作者：夏洛克江户川
来源：CSDN
原文：https://blog.csdn.net/weixin_36604953/article/details/78592943
版权声明：本文为博主原创文章，转载请附上博文链接！

(转)Python新手写出漂亮的爬虫代码2——从json获取信息的更多相关文章

(转)Python新手写出漂亮的爬虫代码1——从html获取信息
https://blog.csdn.net/weixin_36604953/article/details/78156605 Python新手写出漂亮的爬虫代码1初到大数据学习圈子的同学可能对爬虫都有 ...
如何用java写出无副作用的代码
搞java的同学们可能对无副作用这个概念比较陌生,这是函数式编程中的一个概念,无副作用的意思就是: 一个函数(java里是方法)的多次调用中,只要输入参数的值相同,输出结果的值也必然相同,并且在这个函 ...
fir.im Weekly - 如何写出零 bug 的代码
神兽护体,代码无bug.经常看到代码注释的各种形状,这是一种程序员情怀.那么,如何能写出零 Bug 的代码呢,来看看@码农翻身的这篇手册--零Bug的代码是怎么炼成的. 写零 Bug 一定少不了代码 ...
如何写出没有BUG的代码
1947年9月9日,美国海军准将 Grace Hopper 在哈佛学院计算机实验室里使用 Mark II 和 Mark III 计算机进行研究工作.她的团队跟踪到 Mark II 上的一个错误,操作人 ...
如何写出健壮的Java代码
近来在公司写代码,写出的代码发现BUG很多,为了实现一个功能,代码改了又改,影响了工单的效率,也影响个人绩效,因此从网上找了些关于写健壮代码的文章看了看,再加上自己的一些经验总结. 所谓健壮的代码是指 ...
【原创】怎样才能写出优雅的 Java 代码？这篇文章告诉你答案！
本文已经收录自 JavaGuide (59k+ Star):[Java学习+面试指南] 一份涵盖大部分Java程序员所需要掌握的核心知识. 本文比较简短,基本就是推荐一些对于写好代码非常有用的文章或者 ...
《数据结构与算法之美》 <05>链表（下）：如何轻松写出正确的链表代码？
想要写好链表代码并不是容易的事儿,尤其是那些复杂的链表操作,比如链表反转.有序链表合并等,写的时候非常容易出错.从我上百场面试的经验来看,能把“链表反转”这几行代码写对的人不足 10%. 为什么链表代 ...
如何写出没有 bug 的代码？
来源:www.cnblogs.com/sherrywasp/p/9262877.html 1947年9月9日,美国海军准将 Grace Hopper 在哈佛学院计算机实验室里使用 Mark II 和 ...
如何写出优雅的CSS代码？(转)
对于同样的项目或者是一个网页,尽管最终每个前端开发工程师都可以实现相同的效果,但是他们所写的代码一定是不同的.有的优雅,看起来清晰易懂,代码具有可拓展性,这样的代码有利于团队合作和后期的维护:而有的混 ...

随机推荐

第8课列表初始化（3）_防止类型收窄、explicit关键字
1. 防止类型收窄 (1)类型收窄:指的是导致数据内容发生变化或者精度丢失的隐式类型转换. (2)类型收窄的几种情况: ①从浮点数隐式转换为整型数,如int i=2.2; ②从高精度浮点数隐式转换为低 ...
hadoop 分布式机群搭建
描述:鉴于本地电脑内存限制,采用三台虚机安装此环境. 主机名,分别为master.slave1.slave2. zookeeper分别安装这三台机器上,master和slave1做主从备份, slav ...
Linux架构分布式集群之基础篇
部署linux环境,安装jdk 1.安装rar命令行 wget http://www.rarlab.com/rar/rarlinux-x64-4.2.0.tar.gz由于在此目录下解压rar后linu ...
Angularjs中的Controller
概念:一个应用(APP,本身也是一个大模块)是由若干个模块(module)组成的,每个模块实现一个功能.利于代码的复用. 书写格式: <!DOCTYPE html> <html ng ...
UINavigationController 返回到各级目录
[self.navigationController popViewControllerAnimated:YES]; UINavigationController返回总结: 1.弹出当前视图控制器(弹 ...
py库： pyautogui （自动测试模块，模拟鼠标、键盘动作）
PyAutoGUI 是一个人性化的跨平台 GUI 自动测试模块 pyautogui 库 2017-10-4 pip install pyautogui python pip.exe install p ...
函数getpass
函数getpass为python自带函数,作用是使用户输入的内容不可见 1 # -*- coding:utf-8 -*- 2 import getpass 3 a = raw_input(" ...
输出1到n以内的素数
package cn.lhj.learn; /** * 输出1~n以内的素数 * * @author lhj * */ public class TestSuShu { public static v ...
tomcat中项目后有括号
引入他人项目时,由于报错,copy本地workspace下其他项目的 .settings和.project到该项目路径下结果Eclipse 的 Server 中出现了 aaa(bbb)的情况并且 ...
16.linux常用查看命令
cat :查看整个文件tail -200f abc.txt :查看abc.txt的最后200行

(转)Python新手写出漂亮的爬虫代码2——从json获取信息

(转)Python新手写出漂亮的爬虫代码2——从json获取信息的更多相关文章

随机推荐

热门专题