【Python3 爬虫】16_抓取腾讯视频评论内容

上一节我们已经知道如何使用Fiddler进行抓包分析，那么接下来我们开始完成一个简单的小例子

抓取腾讯视频的评论内容

首先我们打开腾讯视频的官网https://v.qq.com/

我们打开【电视剧】这一栏，找到一部比较精彩的电视剧爬取一下，例如：我们就爬取【下一站，别离】这部吧

我们找到这部电视剧的评论如下图：

我们看到上图标记部分【查看更多评论】

我们首先在Fiddelr中使用命令clear清除之前浏览的记录

输入命令直接回车即可

接着我们点击【查看更多评论】，此时再次看Fiddler，我们可以看到【JS】这个小图标

我们右键上图标记部分

第一次点击

接着【Copy】---【Just Url】

地址为：

https://video.coral.qq.com/varticle/2580302776/comment/v2?callback=_varticle2580302776commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6392930402023585386&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=9&_=1524713312689

我们将此地址放到浏览器查看效果如何？

现在我们还没发现什么规律，那我们再点击一次

第二次点击

地址为：https://video.coral.qq.com/varticle/2580302776/comment/v2?callback=_varticle2580302776commentv2&orinum=10&oriorder=o&pageflag=1&cursor=6394261147223571180&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=9&_=1524713312690

浏览器显示

我们将上述2个地址放在word进行分析后，分析结果如下：

我们可以看到黄色标记部分没什么规律，最后红色标记是按1递增

那么我们验证下黄色标记部分是否是必须的呢？删除黄色部分放在浏览器执行，查看结果，有没有黄色部分结果一致，那么我们接下来开始代码了

import urllib.request

import re

import urllib.error

headers=("User_Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0")

#自定义opener

opener = urllib.request.build_opener()

opener.addheaders = [headers]

urllib.request.install_opener(opener)

cursor_id = '6394260346548095809'

v_id =1524402700840

url = "https://video.coral.qq.com/varticle/2580302776/comment/v2?callback=_varticle2580302776commentv2&orinum=10&oriorder=o&pageflag=1&cursor="+cursor_id+"&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=9&_="+str(v_id)

for i in range(0,10):

	content = urllib.request.urlopen(url).read().decode("utf-8")

	patnext = '"last":"(.*?)"'

	nextid = re.compile(patnext).findall(content)[0]

	patcomment = '"content":"(.*?)",'

	comment_content = re.compile(patcomment).findall(content)

	for j in range(1,len(comment_content)):

		print("-----第"+str(i)+str(j)+"条评论内容是：")

		#print(eval("u"+"\'"+comment_content[j]+"\'"))

		try:

			t1 = comment_content[j].encode('latin-1').decode('unicode_escape')

			print(t1)

		except Exception as e:

			print("***********该条评论含有有特殊字符************")

	url="https://video.coral.qq.com/varticle/2580302776/comment/v2?callback=_varticle2580302776commentv2&orinum=10&oriorder=o&pageflag=1&cursor="+nextid+"&scorecursor=0&orirepnum=2&reporder=o&reppageflag=1&source=9&_="+str(v_id+i)

【Python3 爬虫】16_抓取腾讯视频评论内容的更多相关文章

Python爬虫实现抓取腾讯视频所有电影【实战必学】
2019-06-27 23:51:51 阅读数 407 收藏更多分类专栏: python爬虫前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问 ...
用python实现的抓取腾讯视频所有电影的爬虫
1. [代码]用python实现的抓取腾讯视频所有电影的爬虫 # -*- coding: utf-8 -*-# by awakenjoys. my site: www.dianying.atim ...
java爬虫抓取腾讯漫画评论
package com.eteclab.wodm.utils; import java.io.BufferedWriter; import java.io.File; import java.io.F ...
用python 抓取B站视频评论，制作词云
python 作为爬虫利器,与其有很多强大的第三方库是分不开的,今天说的爬取B站的视频评论,其实重点在分析得到的评论化作嵌套的字典,在其中取出想要的内容.层层嵌套,眼花缭乱,分析时应细致!步骤分为以下 ...
Python爬虫，抓取淘宝商品评论内容!
作为一个资深吃货,网购各种零食是很频繁的,但是能否在浩瀚的商品库中找到合适的东西,就只能参考评论了!今天给大家分享用python做个抓取淘宝商品评论的小爬虫! 思路我们就拿"德州扒鸡&qu ...
python 爬取腾讯视频评论
import urllib.request import re import urllib.error headers=('user-agent','Mozilla/5.0 (Windows NT 1 ...
Python爬虫实战：爬取腾讯视频的评论
前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 易某某 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
python爬虫（3）——用户和IP代理池、抓包分析、异步请求数据、腾讯视频评论爬虫
用户代理池用户代理池就是将不同的用户代理组建成为一个池子,随后随机调用. 作用:每次访问代表使用的浏览器不一样 import urllib.request import re import rand ...
python 爬取腾讯视频的全部评论
一.网址分析查阅了网上的大部分资料,大概都是通过抓包获取.但是抓包有点麻烦,尝试了F12,也可以获取到评论.以电视剧<在一起>为例子.评论最底端有个查看更多评论猜测过去应该是 Ajax ...

随机推荐

【cocos2d-js官方文档】十七、事件分发机制
简介http://blog.csdn.net/qinning199/article/details/41951517 游戏开发中一个很重要的功能就是交互,如果没有与用户的交互,那么游戏将变成动画,而处 ...
利用navigator对象判断设备类型
function getTerminalType() { //获取navigator对象 var o = navigator.userAgent, t = ""; if (/\bi ...
HDU 6333.Problem B. Harvest of Apples-组合数C(n,0)到C(n,m)求和-组合数学(逆元)+莫队 ((2018 Multi-University Training Contest 4 1002))
2018 Multi-University Training Contest 4 6333.Problem B. Harvest of Apples 题意很好懂,就是组合数求和. 官方题解: 我来叨叨 ...
牛客网小白赛4 A三角形【贪心】
[前驱]:在指定长度的棍子中找到能组成最大周长三角形的三根棍子链接:https://www.nowcoder.com/acm/contest/134/A 来源:牛客网题目描述铁子从森林里收集了n ...
Maven学习笔记3
好了,按照笔记2的方法我们创建好一个web项目(使用maven:java项目还是java项目,web项目还是web项目,唯一的变化既是我们在pom.xml中配置了我们本应该先下载然后导入的jar包,这 ...
Trie树&kmp&AC自动机&后缀数组&Manacher
Trie 计数+Trie,读清题意很重要 https://vjudge.net/problem/UVALive-5913 kmp AC自动机模板:https://vjudge.net/problem ...
C++ 对象的内存布局【转】
单一继承: 虚函数表在最前面的位置. 成员变量根据其继承和声明顺序依次放在后面. 在单一的继承中,被overwrite的虚函数在虚函数表中得到了更新. 多重继承每个父类都有自己的虚表. 子类的成员函 ...
在scientificlinux7(centos7)中搭建apache+php本地服务器
首先安装httpd(apache), 开始没有注意,以为可以这样安装 yum install apache 结果不对,搜索下 yum -qvh apache 命令是错的,在来 yum search a ...
POJ 3537 Crosses and Crosses (NEERC)
Crosses and Crosses Time Limit: 3000MS Memory Limit: 65536K Total Submissions: 4 ...
[LOJ6436]神仙的游戏
感觉border的性质还是挺神奇的一个border的性质是$S$有长度为$len$的border当且仅当对$\forall i\equiv j\left(\bmod(n-len)\right)$有$ ...

【Python3 爬虫】16_抓取腾讯视频评论内容

【Python3 爬虫】16_抓取腾讯视频评论内容的更多相关文章

随机推荐

热门专题