python3爬取微博评论并存为xlsx

python3爬取微博评论并存为xlsx
**
由于微博电脑端的网页版页面比较复杂，我们可以访问手机端的微博网站，网址为：https://m.weibo.cn/
一、访问微博网站，找到热门推荐链接
我们打开微博网站后看见热门页，按F12查看网页结构后只能看见如下图短短的几个文章。

然后我们将滚动条向下滚动，发现新的文章会在底部加载，原来微博的热门文章加载方式是Ajax加载的，那我们就不能在网页源码中找标签了，我们点击如下图所示的network标签，找找请求地址。

我们查看请求返回值后发现下图的请求返回的是一个json格式的数据。

其实这就是热门文章存放的地址。在headers中找到gRequest请求的链接，是：https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0
二、requests请求获取json数据
我们利用requests获取目标地址返回的json数据，并对其进行打印：

response = requests.get(self.con_url, headers=self.headers)
data = json.loads(response.text)
pprint.pprint(data)
1
2
3
使用pprint来输出，可以按json格式输出获得的结果，这样方便查看，如下图：

三、提取文章信息
文章的所有信息都存放在我们获取的json数据中，接下来我们只要根据键去取对应的值即可：

data1 = data['data']['cards']
# pprint.pprint(data1)
for card_group in data1:
try:
for mblog in card_group['card_group']:
pprint.pprint(mblog['mblog']['id'])
link_list.append(mblog['mblog']['id'])
# pprint.pprint(card_group['card_group'])
except:
pprint.pprint(card_group['mblog']['id'])
link_list.append(card_group['mblog']['id'])
1
2
3
4
5
6
7
8
9
10
11
我们获取了文章的id可以根据文章的id访问文章的详细信息。
四、访问文章详情，获取用户评论及信息
对文章的地址进行拼接，获取评论区用户信息及评论内容。

datas = {} # 存放用户ID以及评论内容
ID = [] # 存放用户ID
comment = [] # 存放用户评论
name = [] # 存放用户名

for link in links:
url = self.urlhead + link + self.urlend + link + '&max_id_type=0'
print(url)
response = requests.get(url, headers=self.headers)
try:
details = json.loads(response.text)['data']['data']
except:
print('ok--------------')
# print(details)
for content in details:
user_id = content['user']['id']
text = content['text']
user_name = content['user']['screen_name']
# print(user_id)
# print(text)
ID.append(user_id)
comment.append(text)
name.append(user_name)

datas['用户ID'] = ID
datas['昵称'] = name
datas['评论'] = comment
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
将获取的用户信息存为字典。
五、将用户信息存入Excel表格

def save_datas(self, datas):
datas = DataFrame(datas) # 将字典转换为DataFrame对象
datas.to_excel('pinglun/datas.xlsx', encoding='utf-8')
print('数据写入成功')
1
2
3
4
源码如下：

import requests
import json
import pprint
from pandas import DataFrame

class WeiboSpider:
def __init__(self):
self.headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"
}
self.con_url = 'https://m.weibo.cn/api/container/getIndex?containerid=102803&openApp=0'
self.urlhead = 'https://m.weibo.cn/comments/hotflow?id='
self.urlend = '&mid='

def get_link(self):
link_list = []
response = requests.get(self.con_url, headers=self.headers)
data = json.loads(response.text)
data1 = data['data']['cards']
# pprint.pprint(data1)
for card_group in data1:
try:
for mblog in card_group['card_group']:
pprint.pprint(mblog['mblog']['id'])
link_list.append(mblog['mblog']['id'])
# pprint.pprint(card_group['card_group'])
except:
pprint.pprint(card_group['mblog']['id'])
link_list.append(card_group['mblog']['id'])
self.load_page(link_list)

def load_page(self, links):
datas = {} # 存放用户ID以及评论内容
ID = [] # 存放用户ID
comment = [] # 存放用户评论
name = [] # 存放用户名

datas['用户ID'] = ID
datas['昵称'] = name
datas['评论'] = comment
self.save_datas(datas)
def save_datas(self, datas):
datas = DataFrame(datas) # 将字典转换为DataFrame对象
datas.to_excel('pinglun/datas.xlsx', encoding='utf-8')
print('数据写入成功')

if __name__ == '__main__':
crawl = WeiboSpider(http://www.my516.com)
crawl.get_link()
---------------------

python3爬取微博评论并存为xlsx的更多相关文章

Python3爬取人人网（校内网）个人照片及朋友照片，并一键下载到本地~~~附源代码
题记: 11月14日早晨8点,人人网发布公告,宣布人人公司将人人网社交平台业务相关资产以2000万美元的现金加4000万美元的股票对价出售予北京多牛传媒,自此,人人公司将专注于境内的二手车业务和在美国 ...
C#爬取微博文字、图片、视频（不使用Cookie）
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
Python爬虫抓取微博评论
第一步:引入库 import time import base64 import rsa import binascii import requests import re from PIL impo ...
python3爬取网页
爬虫 python3爬取网页资源方式(1.最简单: import'http://www.baidu.com/'print2.通过request import'http://www.baidu.com' ...
python3爬取女神图片，破解盗链问题
title: python3爬取女神图片,破解盗链问题 date: 2018-04-22 08:26:00 tags: [python3,美女,图片抓取,爬虫, 盗链] comments: true ...
Python3 爬取微信好友基本信息，并进行数据清洗
Python3 爬取微信好友基本信息,并进行数据清洗 1,登录获取好友基础信息: 好友的获取方法为get_friends,将会返回完整的好友列表. 其中每个好友为一个字典列表的第一项为本人的账号信息 ...
【网络爬虫】【java】微博爬虫（一）：小试牛刀——网易微博爬虫（自定义关键字爬取微博数据）（附软件源码）
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
python3爬取全民K歌
Python3爬取全民k歌环境 python3.5 + requests 1.通过歌曲主页链接爬取首先打开歌曲主页,打开开发者工具(F12). 选择Network,点击播放,会发现有一个请求返回的 ...
Python3爬取猫眼电影信息
Python3爬取猫眼电影信息 import json import requests from requests.exceptions import RequestException import ...

随机推荐

SE11 数据表中日志数据更改勾选的作用
[园工]HF-abap-Rainy(574570549) 11:10:12这个有啥作用,勾上了怎么查修改日志呢,[园丁]SH-CRM-ALEX(8738890) 11:13:53SCU3[ ...
Java之jdk命令行工具详解
JPS---虚拟机进程状况工具常用的参数: -l 输出Java应用程序的main class的完整包 -q 仅显示pid,不显示其它任何相关信息 -m 输出传递给main方法的参数 -v 输出传递给 ...
Oracle - 数据更新 - 事务
/* 事务事务是为了控制数据异步访问所使用的一种技术就类似于java中的锁机制 synchronized,只不过功能更加强大事务不能进行嵌套,当我们开启一个事务的之后作的每一次dml语句都属于这 ...
mysql连接com.mysql.jdbc.exceptions.jdbc4.CommunicationsException: Communications link
jdbc驱动:mysql-connector-java-5.1.39-bin.jar 这个有问题, 换成:mysql-connector-java-5.1.34.jar 就可以了
What's the difference between HEAD, working tree and index, in Git?
What's the difference between HEAD, working tree and index, in Git?
POJ - 2516 Minimum Cost（最小费用最大流）
1.K种物品,M个供应商,N个收购商.每种物品从一个供应商运送到一个收购商有一个单位运费.每个收购商都需要K种物品中的若干.求满足所有收购商需求的前提下的最小运费. 2.K种物品拆开来,分别对每种物品 ...
并不对劲的bzoj5020:loj2289:p4546:[THUWC2017]在美妙的数学王国中畅游
题目大意有一个n(\(n\leq 10^5\))个点的森林,每个点\(u\)上有个函数\(f_u(x)\),是形如\(ax+b\)或\(e^{ax+b}\)或\(sin(ax+b)\)的函数,保证当 ...
session关联接口
#coding:utf-8 import requests,json,re ''' session关联接口,第一步访问登录接口,headers中要有cookie,不然会登录失败,登录成功后,添加随笔保 ...
【转载】OAuth的机制原理讲解及开发流程
1.OAuth的简述 OAuth(Open Authorization,开放授权)是为用户资源的授权定义了一个安全.开放及简单的标准,第三方无需知道用户的账号及密码,就可获取到用户的授权信息,并且这是 ...
bzoj 1880: [Sdoi2009]Elaxia的路线【spfa+拓扑排序】
有趣啊先spfa分别求出以s1,t1,s2,t2为起点的最短路,然后把在s1-->t1或者s2-->t2最短路上的边重新建有向图,跑拓扑最长路即可 #include<iostrea ...

python3爬取微博评论并存为xlsx

python3爬取微博评论并存为xlsx的更多相关文章

随机推荐

热门专题