Python爬取微博热搜以及链接

基本操作，不再详述

直接贴源码（根据当前时间创建文件）：

import requests

from bs4 import BeautifulSoup

import time

def input_to_file(number,time,str1):

    with open('D:\\python\\python_code\\'+time+'.txt',"a+",encoding="utf-8") as f:

        f.write(str(number)+"\t"+str1+"\n")

        f.close()

def get_topic():

    headers = {

    'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36',

    'Host': 's.weibo.com'

    }

    topic_list = []

    #for i in range(0,10):

    link = 'https://s.weibo.com/top/summary'

    request = requests.get(link,headers = headers,timeout = 10)

    #print(str(i+1),"页响应状态码：",request.status_code)

    #print(request.text)

    soup = BeautifulSoup(request.text,"lxml")

    td_list = soup.find_all('td',class_ = 'td-02')

    for each in td_list:

        print("开始获取链接")

        a_object = each.a

        print("开始获取热点内容")

        topic = a_object.text.strip()

        topic_list.append(topic+"\n"+"https://s.weibo.com"+a_object.get('href'))

    return topic_list

print("开始获取网址内容")

topics = get_topic()

i = 0

print("开始写入文件")

time_now = time.strftime('%Y_%m_%d_%H_%M_%S',time.localtime(time.time()))

print("the time now is:",time_now)

for each in topics:

    i+=1

    input_to_file(i,str(time_now),each)

print("所有的热点信息以及链接已经写入文件")

希望对大家有所帮助

以上

Python爬取微博热搜以及链接的更多相关文章

nodejs实现定时爬取微博热搜
The summer is coming " 我知道,那些夏天,就像青春一样回不来. - 宋冬野青春是回不来了,倒是要准备渡过在西安的第三个夏天了. 废话我发现,自己对 coding 这 ...
Python网络爬虫-爬取微博热搜
微博热搜的爬取较为简单,我只是用了lxml和requests两个库 url=https://s.weibo.com/top/summary?Refer=top_hot&topnav=1& ...
BeautifulSoup爬取微博热搜榜
获取url 设定请求头 requests发出get请求实例化BeautifulSoup对象 BeautifulSoup提取数据 import requests 2 from bs4 import B ...
2020不平凡的90天，Python分析三个月微博热搜数据带你回顾
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者:刘早起早起 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
用python爬取微博数据并生成词云
很早之前写过一篇怎么利用微博数据制作词云图片出来,之前的写得不完整,而且只能使用自己的数据,现在重新整理了一下,任何的微博数据都可以制作出来,放在今天应该比较应景. 一年一度的虐汪节,是继续蹲在角落默 ...
Python爬取热搜存入数据库并且还能定时发送邮件！！！
一.前言微博热搜榜每天都会更新一些新鲜事,但是自己处于各种原因,肯定不能时刻关注着微博,为了与时代接轨,接受最新资讯,就寻思着用Python写个定时爬取微博热搜的并且发送QQ邮件的程序,这样每天可以 ...
C#爬取微博文字、图片、视频（不使用Cookie）
前两天在网上偶然看到一个大佬OmegaXYZ写的文章,Python爬取微博文字与图片(不使用Cookie) 于是就心血来潮,顺手撸一个C#版本的. 其实原理也很简单,现在网上大多数版本都需要Cooki ...
Python 爬取热词并进行分类数据分析-[数据修复]
日期:2020.02.01 博客期:140 星期六 [本博客的代码如若要使用,请在下方评论区留言,之后再用(就是跟我说一声)] 所有相关跳转: a.[简单准备] b.[云图制作+数据导入] c.[拓扑 ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...

随机推荐

Python中BaseException和Exception的区别
BaseException 是 Exception 的父类,作为子类的Exception无法截获父类BaseException类型的错误 BaseException: 包含所有built-in exc ...
Pikachu-over permission（越权操作）
如果使用A用户的权限去操作B用户的数据,A的权限小于B的权限,如果能够成功操作,则称之为越权操作. 越权漏洞形成的原因是后台使用了不合理的权限校验规则导致的. 一般越权漏洞容易出现在权限页面(需要登 ...
DFS-B - Dr. Evil Underscores
B - Dr. Evil Underscores Today, as a friendship gift, Bakry gave Badawy nn integers a1,a2,…,ana1,a2, ...
LeetCode 第二题 Add Two Numbers 大整数加法高精度加法链表
题意 You are given two non-empty linked lists representing two non-negative integers. The digits are s ...
在MATLAB R2018b中配置VLFeat
在MATLAB R2018b中配置VLFeat 作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/ VLFeat官网:http://www.vlfeat.o ...
Git操作时遇到的一些问题和相应的处理方式
Q1:如何解决冲突/避免冲突 A1:执行git fetch之后,本地可能会存在冲突. 如果希望合并本地修改内容,需要执行git merge.不过当有修改内容未提交时,不能merge,要么把修改内容提交 ...
early-stopping的使用
early-stopping的使用待办 https://blog.csdn.net/qq_37430422/article/details/103638681 github对应类导入,直接放在项目更 ...
centos8 常用软件
防火墙 GUI版 https://blog.csdn.net/qq_36492368/article/details/80432259 dnf install -y firewall-config d ...
记录 Docker 的学习过程（网络篇）
打开2个会话,分别运行以下命令 # docker run -it -P --name nginx2 nginx #-P 端口随机映射再打开一个会话查看运行中的容器 # docker ps -aCO ...
[转]触发fullgc的条件
良好的状态是:minor gc比较多 full gc 比较少因为fullgc时间比较慢,而且会占用CPU的时间片. 不好的状态是:minor gc比较少 full gc 比较多这样程序就一直卡在f ...

Python爬取微博热搜以及链接

Python爬取微博热搜以及链接的更多相关文章

随机推荐

热门专题