用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!
写在前面
考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方。而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息。虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具。

目的
爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云
一、分析
1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子

1.2 帖子内容,也有规律,都在这个标签里面

1.3 判断内容就用百度AI的内容审核,情感分析也用百度AI了,省事
1.4 词云可以先用jieba分词然后再用wordcloud生成,但是后来发现网上有现成的工具
二、爬取过程
2.1 首先解决的一个小问题就是让它自己计算一下每页是50条帖子,我输入1000条它应该去爬取那几个页面,就用这种数学计算就行
2.2爬取过程代码,爬取后就调用内容审核以及情感分析,然后写入文件
def gettbtz(tbname,tznum): ####根据给出的贴吧和帖子数(50的整数倍)获得所有帖子
n = -50
tznum = int(tznum) ###z这里是要根据贴吧的规则,每页显示50条帖子
emotions = 0
while (tznum > n):
n = n + 50
print("正在爬取前" + str(n) + "条帖子")
url = "http://tieba.baidu.com/f?kw=" + tbname + "&ie=utf-8&pn=" + str(n)
soup = BeautifulSoup(requests.get(url).text,'lxml') ###爬取动作
a = soup.find_all('div',class_='threadlist_abs threadlist_abs_onlyline')
for a in a: ###接下来以此判断文本是否合规,然后判断情感正向倾向指数,然后写入文件
if BDAITEXT(a.text) == "合规":
print("爬取到合规帖子,正在写入文件:" + a.text)
with open("resaults.txt","a+",encoding='utf-8') as f:
f.write(str(a.text)) ###写入这里特意转换一下数据类型,避免后面发生文本编码错误
try:
emotions = emotions + BDAIemotion(a.text)
print("当前累计情感指数:" + str(emotions))
except:
print("情感分析出错,跳过")
else:
print("帖子不合规,跳过")
time.sleep(10) ###君子协议,10秒暂停
f.close()
三、百度人工智能API调用
3.1 百度AK获取,就是要先到百度AI开发平台注册一个开发者账号,然后创建应用,获取应用id和密钥,然后得到这样一个调用的密钥
# client_id 为官网获取的AK, client_secret 为官网获取的SK
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=【应用ID】&client_secret=【SK】'
response = requests.get(host)
if response:
print(response.json())
3.2 内容审核API调用
def BDAITEXT(text): ####百度AI文本审核,返回合规或者不合规
content = {"text": text}
r = requests.post(BDAItexturl,content).text
if r:
rback = json.loads(r)
return rback["conclusion"]
3.3 情感分析API调用
def BDAIemotion(text): ####百度AI情感分析,返回一个数值
content = {"text": text}
content = json.dumps(content)
r = requests.post(BDAIemotionurl,content).text
if r:
rback = json.loads(r)
return rback['items'][0]['positive_prob']
四、词云生成
有很多在线工具,导入大段文本,然后根据需要进行文本的过滤、分词,然后设置颜色、样式就可以生成词云。

五、信息分析
看词云,结果不言而喻,提早地准备、丰富的经验、专业课、数学、政治、院校选择…………
从情感上来看,大多数情感指数偏向积极,说明对待考研还是需要一个积极的态度。

运行截图

待改进
1.应该多线程,速度太慢了
2.爬取了帖子,没有爬取评论
3.情感分析有很多出错
“闲言碎语留给市井小民,你只管优雅从容心怀远方”
用Python爬取了考研吧1000条帖子,原来他们都在讨论这些!的更多相关文章
- Python——爬取百度百科关键词1000个相关网页
Python简单爬虫——爬取百度百科关键词1000个相关网页——标题和简介 网站爬虫由浅入深:慢慢来 分析: 链接的URL分析: 数据格式: 爬虫基本架构模型: 本爬虫架构: 源代码: # codin ...
- python 虾米停服了...用python爬取虾米最近播放的1000首歌
1. 虾米关服 在这里插入图片描述 用了5年多的音乐软件就这么说关就关了,确实让人心里不好受 ,虽然再去一个新的app里,让它们的算法熟悉你的喜好也不是很困难,可我还是习惯虾米的界面.虾米现在可以支持 ...
- python爬取网站数据
开学前接了一个任务,内容是从网上爬取特定属性的数据.正好之前学了python,练练手. 编码问题 因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了. 问题要从文字的编码讲 ...
- python爬取人民币汇率中间价
python爬取人民币汇率中间价,从最权威的网站中国外汇交易中心. 首先找到相关网页,解析链接,这中间需要经验和耐心,在此不多说. 以人民币兑美元的汇率为例(CNY/USD),脚本详情如下: wind ...
- 萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面 之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
- python爬取网站数据保存使用的方法
这篇文章主要介绍了使用Python从网上爬取特定属性数据保存的方法,其中解决了编码问题和如何使用正则匹配数据的方法,详情看下文 编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这 ...
- steam夏日促销悄然开始,用Python爬取排行榜上的游戏打折信息
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 不知不觉,一年一度如火如荼的steam夏日促销悄然开始了.每年通过大大小小 ...
- python爬取花木兰豆瓣影评,并进行词云分析
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资 ...
- Python爬取跑男的评论,看看大家都在看谁吧
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于菜J学Python,作者: J哥 Python爬取爬取腾讯视频弹幕视频讲解 http ...
随机推荐
- java构造方法的私有化
有的时候我们为了避免外界创建某类的实例,就将某类的构造方法私有化,即将它的构造方法用private修饰: 外界如何用到? 提供get方法!不提供的话外界就没法创建对象!(对反射无效) Eg:packa ...
- axios 跨域
{ headers:{"Content-Type":"application/x-www-form-urlencoded;charset=utf-8"} ...
- 写一个js配合rem
rem.js 目前笔者解决移动端的尺寸带来的样式问题,都是通过viewport + rem的.viewport 相信大家都用过了,而rem需要用js动态设置html的字体大小. 动态设置rem的根字体 ...
- 移动端遇到的bug (长期更新)
移动端遇到的bug border-radius和transform在一起的bug 当父级设置了border-radius+overflow:hidden的时候,圆角是可以包住子级的,这是个很常见的场景 ...
- vue-cil 打包爬坑(解决)
1.打包成功不报错,但是打开页面啥都没有? 解决:文件位置:config目录下index.js文件更改assetsPublicPath属性:文件里面有两个assetsPublicPath属性,也就是 ...
- 性能测试基础-开门篇3(LR常用函数介绍)
LR常用的函数,协议不一样函数会不一样,这里简单的介绍下HTTP\WEBSERVICE\SOCKET协议常用函数: HTTP: web_set_max_html_param_len("102 ...
- Less 语法快速入门
Less 语法快速入门 Less 是一门 CSS 预处理语言其可以运行在 Node 或浏览器端. 它将传统的 css 样式结构单一的排版顺序进行了优化,让我们可以通过层级嵌套的方式将 css 类名与H ...
- git 上传当前分支
因为我现在的分支是的名很长,每次需要上次当前分支需要写很多代码,是不是有很简单方法上传当前分支. 如果要上传一个分支到仓库 origin 那么就需要使用下面的命令 git push origin 分支 ...
- C# dotnet 获取整个局域网的 ip 地址
局域网可以使用的 IP 地址有很多,我写了一段代码用来枚举所有可以用的 ip 地址 小伙伴都知道,局域网可以使用的 IP 范围如下 A类地址:10.0.0.0 - 10.255.255.255 B类地 ...
- ELK系统分析nginx日志
一.nginx nginx 服务器日志的log_format格式: log_format main '$remote_addr - $remote_user [$time_local] "$ ...