BeautifulSoup爬取微博热搜榜
- 获取url
- 设定请求头
- requests发出get请求
- 实例化BeautifulSoup对象
- BeautifulSoup提取数据
import requests
2 from bs4 import BeautifulSoup
3
4 url = "https://s.weibo.com/top/summary"
5 date = {
6 "Refer":"top_hot",
7 "topnav":"1",
8 "wvr":"6"
9 }
10 headers = {
11 "User-Agent":"Mozilla/5.0 (X11; Ubuntu; Linux x86_6 4; rv:81.0) Gecko/20100101 Firefox/81.0"
12 }
13 response = requests.get(url,params = date,headers = headers )
14 content = response.content.decode("utf-8")
15 soup = BeautifulSoup(content,"lxml")
16 tds_list = soup.find_all("td",class_ = "td-02")[1:]
17 event_list = []
18 for td in tds_list:
19 event = td.find_all("a")[0].string
20 hot = td.find_all("span")[0].string
21 sina = {
22 "事件":event,
23 "热度":hot
24 }
25 event_list.append(sina)
26 for event in event_list:
27 print(event)
28 with open("weobohot.txt","w") as f:
29 for event in event_list:
30 f.write(str(event) + "\n"
生成的weohot.txt文件
{'事件': '冯绍峰给赵丽颖的祝福评论被淹了', '热度': '4907890'}
{'事件': '成都大学党委书记毛洪涛的遗体已被找到', '热度': '1643868'}
{'事件': '任嘉伦在发光', '热度': '1635768'}
{'事件': '李玟身材', '热度': '1598868'}
{'事件': '苹果回应不配耳机和充电器', '热度': '1521308'}
{'事件': '胡杏儿首次直播', '热度': '1364689'}
{'事件': '狗仔101', '热度': '1334856'}
{'事件': '复方板蓝根对新冠病毒有效', '热度': '1057010'}
{'事件': '18岁女大学生捐献遗体', '热度': '562891'}
{'事件': '泰国爆发抗议示威活动', '热度': '560373'}
{'事件': '南航回应乘客抠出氧气面罩致延误', '热度': '560244'}
{'事件': '教育部谈体育老师当班主任遭投诉', '热度': '558928'}
{'事件': '游客晕倒遇18名医生救助守护', '热度': '471445'}
{'事件': '中考体育将达到和语数外同分值水平', '热度': '463011'}
{'事件': '4人26天捕鸟8万余只', '热度': '442804'}
{'事件': 'S10门票摇号结果', '热度': '437430'}
{'事件': '喜宝', '热度': '402599'}
{'事件': '凤姐', '热度': '402548'}
{'事件': '韩国献血者中有42人确诊新冠', '热度': '395386'}
{'事件': '军训下雨时袜子没洗干净', '热度': '393559'}
{'事件': '吴中天给杨子姗做9周年视频', '热度': '386616'}
{'事件': '王清远', '热度': '383780'}
{'事件': '青岛此次疫情为医院聚集性疫情', '热度': '382168'}
{'事件': '上海破获首例网红直播带货售假案', '热度': '315914'}
{'事件': '南方菜市场有多贴心', '热度': '281595'}
{'事件': '鹿晗重庆', '热度': '275778'}
{'事件': '龙丹妮收到报备了吗', '热度': '275400'}
{'事件': '原来河狸也会搓澡', '热度': '257896'}
{'事件': '打工人你好狠的心', '热度': '218550'}
{'事件': '雅思', '热度': '183550'}
{'事件': '广州疫情', '热度': '183547'}
{'事件': '夏之光恋情', '热度': '183523'}
{'事件': '刘诗诗复古蜂窝头', '热度': '183514'}
{'事件': '花都', '热度': '183497'}
{'事件': '老师将一次性餐盒改造成昙花灯', '热度': '183485'}
{'事件': '唐嫣头巾造型', '热度': '183445'}
{'事件': '江苏大学通报学生坠楼身亡事件', '热度': '183218'}
{'事件': '三句话读懂国产剧', '热度': '179326'}
{'事件': '成都西岭雪山下雪', '热度': '164400'}
{'事件': '妈妈神奇的语言描述能力', '热度': '152580'}
{'事件': '任豪王者荣耀', '热度': '152088'}
{'事件': '任豪道歉', '热度': '150707'}
{'事件': '李栋旭身材', '热度': '149847'}
{'事件': '易建联康复时间预计30周', '热度': '149218'}
{'事件': '全国统一的家庭群名称', '热度': '148772'}
{'事件': '电竞班的作业', '热度': '145234'}
{'事件': '乡村医生遗愿穿戴整齐捐给国家', '热度': '144878'}
{'事件': '张培萌妻子称只想要女儿抚养权', '热度': '144583'}
{'事件': '同济大学新生作业每份10米长', '热度': '143680'}
{'事件': '全球首个埃博拉病毒治疗方法', '热度': '140690'}
可以看出我们已经成功的爬取到了热搜榜的内容
BeautifulSoup爬取微博热搜榜的更多相关文章
- nodejs实现定时爬取微博热搜
The summer is coming " 我知道,那些夏天,就像青春一样回不来. - 宋冬野 青春是回不来了,倒是要准备渡过在西安的第三个夏天了. 废话 我发现,自己对 coding 这 ...
- Python网络爬虫-爬取微博热搜
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1& ...
- Python爬取微博热搜以及链接
基本操作,不再详述 直接贴源码(根据当前时间创建文件): import requests from bs4 import BeautifulSoup import time def input_to_ ...
- 40行代码爬取猫眼电影TOP100榜所有信息
主要内容: 一.基础爬虫框架的三大模块 二.完整代码解析及效果展示 1️⃣ 基础爬虫框架的三大模块 1.HTML下载器:利用requests模块下载HTML网页. 2.HTML解析器:利用re正则表 ...
- 【网络爬虫】【java】微博爬虫(一):小试牛刀——网易微博爬虫(自定义关键字爬取微博数据)(附软件源码)
一.写在前面 (本专栏分为"java版微博爬虫"和"python版网络爬虫"两个项目,系列里所有文章将基于这两个项目讲解,项目完整源码已经整理到我的Github ...
- 2020不平凡的90天,Python分析三个月微博热搜数据带你回顾
前言 文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
- python定时器爬取豆瓣音乐Top榜歌名
python定时器爬取豆瓣音乐Top榜歌名 作者:vpoet mail:vpoet_sir@163.com 注:这些小demo都是前段时间为了学python写的,现在贴出来纯粹是为了和大家分享一下 # ...
- 爬虫系列(1)-----python爬取猫眼电影top100榜
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天在整理代码时,整理了一下之前自己学习爬虫的一些代码,今天先上一个简单的例子,手把手教你入门Python爬虫,爬取 ...
- ASO关键词优化技巧:如何充分利用热搜榜与相关热点?
ASO关键词优化对提高市场曝光率.增加APP下载量有着至关重要的作用.那如何充分利用热搜榜与相关热点来进行ASO优化呢? 一.产品定位 因为此文主要是讲优化APP关键词的,所以产品定位这一块就 ...
随机推荐
- codeforces 8C(非原创)
C. Looking for Order time limit per test 4 seconds memory limit per test 512 megabytes input standar ...
- JavaScript中的对象引用和复制
在JavaScript分为两种原始值和引用值类型,原始值之间的复制是值对值得复制,而引用类型则是引用对引用的复制: // 原始值的复制: let num1 = 1; let num2 = num1; ...
- 基于vue3.0+electron新开窗口|Electron多开窗体|父子模态窗口
最近一直在折腾Vue3+Electron技术结合的实践,今天就来分享一些vue3.x和electron实现开启多窗口功能. 开始本文之前,先来介绍下如何使用vue3和electron来快速搭建项目. ...
- Android Activity All In One
Android Activity All In One Android Activity Lifecycle https://developer.android.com/reference/andro ...
- IM SDK & websocket & chart room
IM SDK & websocket & chart room IM SDK https://imsdk.com/ https://cloud.tencent.com/document ...
- 科普NGK公链生态板块旗下的BGV、SPC、NGK、USDN四大币种
众所周知,NGK公链所有数据上链.公开透明,NGK公链生态板块目前主要分为四个板块---BGV.SPC.NGK.USDN四大币种,笔者以时间上倒叙手法来一一科普. 首先,是2021新年刚推出的SPC侧 ...
- C++算法代码——标题统计
题目来自:http://218.5.5.242:9018/JudgeOnline/problem.php?id=2327 题目描述 凯凯刚写了一篇美妙的作文,请问这篇作文的标题中有多少个字符? 注意: ...
- Android 之 EditText
1.使用EditText 的SetInput的方法设置输入类型: 1 //输入类型为没有指定明确的类型的特殊内容类型 2 editText.setInputType(InputType.TYPE_NU ...
- 自己写的一个抢票加速的Python小程序源码分享-----纯属娱乐
最近这段时间频频看到微信群里发什么 抢票加速,智行.携程.飞猪.美团,对于我这能坐客车就不坐火车的人来说,无所谓靠谱不靠谱 突发奇想的整理了下整个抢票加速的逻辑,写了这个小程序,代码很low,拒绝批评 ...
- Redis缓存穿透、缓存雪崩、缓存击穿好好说说
前言 Redis是目前非常流行的缓存数据库啦,其中一个主要作用就是为了避免大量请求直接打到数据库,以此来缓解数据库服务器压力:用上缓存难道就高枕无忧了吗?no,no,no,没有这么完美的技术, 缓存穿 ...