python抓取知乎热榜
知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析
#!/usr/bin/python
# -*- coding: UTF-8 -*- from urlparse import urljoin import re
import requests def main():
headers = {'user-agent':'Baiduspider',
'cookie':'*****'
}
proxies = {
'http':'http://122.114.31.177:808'
}
base_url = 'https://www.zhihu.com/'
seed_url = urljoin(base_url, 'hot')
resp = requests.get(seed_url,
headers=headers,
proxies=proxies)
html = resp.text
match_obj = re.compile(r'<h2 class="HotItem-title">.*?</h2>', re.S)
results = re.findall(match_obj, html)
for item in results:
match_title = r'<h2 class="HotItem-title">(.*?)</h2>'
title = re.findall(match_title, item)[0]
print title if __name__ == '__main__':
main()
最后抓取到的话题如下所示(2019年05月28日16:19分的知乎热榜):
如何看待南昌红谷滩女孩子大街上被陌生人杀害事件?
安卓一旦「抛弃」华为,华为改用自研的「鸿蒙」系统,你是否愿意尝试?
如何看待珠穆朗玛峰大拥堵致 14 人死亡重大事件?
假如地球上所有体重超过 20kg 的生物都拥有人类的智商,会碰撞出怎样的文明火花?
有哪些瞬间「 hold 住全场 」的表情包?
有什么特别恐怖,听了背后凉飕飕的鬼故事?
2019 年 5 月 28 日发布的红米新旗舰 K20 手机有哪些值得一提的亮点和想吐槽的方面?
如何看待网传联邦快递私自转运华为邮件,华为将审查与联邦快递合作关系一事?
刘慈欣的作品中有哪些史诗感很强的片段?
梦会不会是在给你暗示?
为什么施工单位的年轻人越来越少了?
学习哲学有什么坏处?
有哪些让你见过就无法忘记的文身?
如何评价 HBO 新剧《切尔诺贝利》第 4 集?
晋升很快的职场人都有什么共性?
室友无意中打碎了我两瓶香水,应不应该让她赔?
有哪些很皮的句子?
现代社会为何还要学习拗口难懂的古文?
如何看待郑州「奥迪女」因孩子挡路掌掴 5 岁女童一事?
宅男如何正常和女生聊天?
游戏《全面战争:三国》有哪些技巧和战术?
如何看待现今部分医生对患者的不良态度?
人为什么会得痔疮?
男人更愿意找宝钗还是黛玉?
每天跑步五公里,能给自己带来什么?
张云雷有哪些惊艳你的神图?
为何男女比例失调下我依然没有男朋友?
《破冰行动》是以哪起真实事件改编的?具体情况是怎样的?
如何看待黄磊和王迅发两条庆祝微博?
不出国如何练就一口流利的英语?
前女友到底是怎样的存在?
是否存在某些大学辅导员比较嚣张的现象,为什么?
有哪些瘦腿的方法?
如何看待张艺兴首场演唱会 8 秒售完?
如果地球只剩你自己,你会怎样?
如何评价 Dior 的口红?
都说支付宝促进了社会信用的进步,是否夸张了?
四月中旬决定考研还来得及吗?每天至少复习多久?
如何评价《英雄联盟》重做后的「铁男」莫德凯撒?
沈眉庄为什么大家都叫她眉儿而不是庄儿?
有哪些很多人觉得很烂但你要吹爆的动漫?
如何评论张艺兴演唱会无团票,而且票价挺贵的?
有哪些「随手一做好吃又饱肚 」的美食?
如何评价《这就是街舞》第二季第二期中易烊千玺 2v2battle 的表现 ?
红米 K20 搭载全面屏和 7 代屏下指纹,说明小米产品线布局发生了哪些变化?
如何看待吴昕将钟汉良送的礼物转卖了?
经常便秘日常吃什么?
怎么评价《龙珠超:布罗利》这部作品?
黄磊在节目里叫子枫女儿,多多看了会怎么想?
有什么明日方舟玩家看了能会心一笑的笑话或图片?
python抓取知乎热榜的更多相关文章
- 爬取知乎热榜标题和连接 (python,requests,xpath)
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...
- 使用python抓取知乎日报的API数据
使用 urllib2 抓取数据时,最简单的方法是: import urllib2, json def getStartImage(): stream = urllib2.urlopen('http:/ ...
- 用 python 抓取知乎指定回答下的视频
前言 现在知乎允许上传视频,奈何不能下载视频,好气哦,无奈之下研究一下了,然后撸了代码,方便下载视频保存. 接下来以 猫为什么一点也不怕蛇? 回答为例,分享一下整个下载过程. 调试一下 打开 F12, ...
- 用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件
抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_toda ...
- python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
- Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
- 使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 ...
- python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
随机推荐
- bzoj 4631: 踩气球 线段树
题目: Description 六一儿童节到了, SHUXK 被迫陪着M个熊孩子玩一个无聊的游戏:有N个盒子从左到右排成一排,第i个盒子里装着Ai个气球. SHUXK 要进行Q次操作,每次从某一个盒子 ...
- 深入理解javascript中的立即执行函数
这篇文章主要介绍了深入理解javascript中的立即执行函数,立即执行函数也叫立即调用函数,通常它的写法是用(function(){…})()包住业务代码,使用jquery时比较常见,需要的朋友可以 ...
- JavaScript编写代码时候没有提示
如上图所示如果没有提示可能是箭头所指示的类型不正确.
- 【转】 Pro Android学习笔记(五八):Preferences(2):CheckBoxPreference
目录(?)[-] CheckBox Preference xml文件 设备的存贮文件 复合preference 在ListPreference的例子中显示的是单选,如果是多选,可采用CheckBoxP ...
- PG degraded实验
1. 创建一个文件,并把该文件作为对象放到集群中: [root@node1 ~]# echo "this is test! " >>test.txt [root@nod ...
- 第 七 课 go的运算符
http://www.runoob.com/go/go-operators.html 算术运算符 关系运算符 逻辑运算符 位运算符 赋值运算符 其他运算符 返回变量存储地址: & 指针变量: ...
- arm-linux-3.4.2移植for2440
----------------------------2440 上内核3.4.2移植------------------------ PS:因wifi项目中无wifi驱动,需新内核. 1.首先在内核 ...
- linux日常管理-top动态查看负载
动态查看负载命令,具体哪个程序,哪个进程造成的系统负载. top 回车查看 3秒更新一次 第一行和uptime和w第一行显示的一样. CPU使用率,us sy 内存相关,Mem 一共多少,使用了多少, ...
- linux命令-gzip压缩
把很大的目录/文件压缩成更小的文件,传输节省带宽,从服务端到客户端下载过程节省时间,减少带宽,节省使用率.使用cpu的资源. 压缩命令gzip [root@wangshaojun ~]# ls111. ...
- CSS如何计算优先级?如何计算权重?
(1) 优先级就近原则,同权重以最近者为准 载入样式以最后载入的样式为准: 同权重下:内联样式表(标签内部) > 嵌入样式表(当前文件) > 外部样式表(外部文件) !import > ...