前言 继<隐秘的角落>后,又一部“爆款剧”——<三十而已>获得了口碑收视双丰收,王漫妮.顾佳.钟晓芹三个女主角的故事线频频登上微博热搜.该剧于2020年7月17日在东方卫视首播,并在腾讯视频同步播出.为了了解吃瓜群众们对这部剧的看法,我爬了爬腾讯视频关于这部剧的评论,并做了简单文本可视化分析. PS:如有需要Python学习资料的小伙伴可以加下方的群去找免费管理员领取 可以免费领取源码.项目实战视频.PDF文件等 一.数据获取 1.分析评论页面 腾讯视频评论要点击查看更多评论才能加…
爬取过程在这里: Python爬取你好李焕英豆瓣短评并利用stylecloud制作更酷炫的词云图 本文基于前文爬取生成的douban.txt,基于SnowNLP做情感分析. 依赖库: 豆瓣镜像比较快: pip install snownlp -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple 初识SnowNLP: SnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的.由于当…
---恢复内容开始--- 去年在网络上有一篇文章特别有名:我分析42万字的歌词,为搞清楚民谣歌手们在唱些什么.这篇文章的作者是我大学的室友,随后网络上出现了各种以为爬取了XXX,发现了XXX为名的文章.我想了想,我能不能也通过爬虫来做些什么呢?先入为主,我也以歌曲作为切入口---周杰伦,是的,我们这一代的生活成长,总是离不开周董的声音的陪伴,那我就来爬取周董的歌曲,歌曲评论,歌词,以及各种有用的信息并做一个可视化吧. 这篇文章适合于python纯小白,因为本人也是python刚刚入门,里面可能很…
写在前面 考研在即,想多了解考研er的想法,就是去找学长学姐或者去网上搜索,贴吧就是一个好地方.而借助强大的工具可以快速从网络鱼龙混杂的信息中得到有价值的信息.虽然网上有很多爬取百度贴吧的教程和例子,但是贴吧规则更新快,目的不一样,爬取的内容也不一样,所以就有了这个工具. 目的 爬取1000条帖子→判断是否是广告或者垃圾信息→分析语言情感→生成词云 一.分析 1.1 先查看贴吧的规则,果然有规律,每一页是50条帖子 1.2 帖子内容,也有规律,都在这个标签里面 1.3 判断内容就用百度AI的内容…
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:简单 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun 对于小说鬼吹灯,相信很多人都知道,它可谓是国内盗墓寻宝系列小说的巅峰之作,最近得知该系列小说的<龙岭迷窟>部分被制作成了网剧,已经于 4 月 1 日开播了,主要演员潘粤明.姜超.张雨绮等都是一些大家比较熟悉的面孔,网剧质量.剧情还原度等到底怎么样呢?我…
1.项目背景 随着科技的飞速发展,数据呈现爆发式的增长,任何人都摆脱不了与数据打交道,社会对于“数据”方面的人才需求也在不断增大.因此了解当下企业究竟需要招聘什么样的人才?需要什么样的技能?不管是对于在校生,还是对于求职者来说,都显得很有必要. 本文基于这个问题,针对51job招聘网站,爬取了全国范围内大数据.数据分析.数据挖掘.机器学习.人工智能等相关岗位的招聘信息.分析比较了不同岗位的薪资.学历要求:分析比较了不同区域.行业对相关人才的需求情况:分析比较了不同岗位的知识.技能要求等. 做完以…
暑假集训主要是在杭电oj上面刷题,白天与算法作斗争,晚上望干点自己喜欢的事情! 首先,确定要爬取哪些数据: 如上图所示,题目ID,名称,accepted,submissions,都很有用. 查看源代码知: 所有的数据都在一个script标签里面. 思路:用beautifulsoup找到这个标签,然后用正则表达式提取. 话不多说,上数据爬取的代码: import requests from bs4 import BeautifulSoup import time import random imp…
python爬取免费优质IP归属地查询接口 具体不表,我今天要做的工作就是: 需要将数据库中大量ip查询出起归属地 刚开始感觉好简单啊,毕竟只需要从百度找个免费接口然后来个python脚本跑一晚上就ok了嘛~但是,网上免费接口要么限制访问频率(淘宝的),要么限制访问次数(百度及其他) 没辙了,从百度找到了几个在线查询的接口,要么不够准确(或者说她们的数据库太旧了),要么就是速度太慢了,跟限制访问似的(没办法,小规模人家的服务器的确不够好) 于是乎就想到了百度首页的ip接口,就这货: 为了防止泄露…
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random import urllib import urllib2 import MySQLdb # 爬取豆瓣评论 class Douban: # 构造函数 def __init__(self, url, name): # 采集的地址 #self.url = 'https://book.douban.com/su…
<后来的我们>上映也有好几天了,一直没有去看,前几天还爆出退票的事件,电影的主题曲由陈奕迅所唱,特地找了主题曲<我们>的MV看了一遍,还是那个感觉.那天偶然间看到Python中文社区公众号推送了一篇文章<用Python爬取陈奕迅新歌<我们>10万条评论的新发现>.最近一直在学习Python,想着找一个有趣的项目做一个练习,于是就模仿作者的代码开始练习,原文中作者在题目中说是“10万条评论的新发现”,通过程序运行,发现作者并没有对所有评论进行爬取,只是爬取了网…