python抓取知乎热榜
知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析
#!/usr/bin/python
# -*- coding: UTF-8 -*- from urlparse import urljoin import re
import requests def main():
headers = {'user-agent':'Baiduspider',
'cookie':'*****'
}
proxies = {
'http':'http://122.114.31.177:808'
}
base_url = 'https://www.zhihu.com/'
seed_url = urljoin(base_url, 'hot')
resp = requests.get(seed_url,
headers=headers,
proxies=proxies)
html = resp.text
match_obj = re.compile(r'<h2 class="HotItem-title">.*?</h2>', re.S)
results = re.findall(match_obj, html)
for item in results:
match_title = r'<h2 class="HotItem-title">(.*?)</h2>'
title = re.findall(match_title, item)[0]
print title if __name__ == '__main__':
main()
最后抓取到的话题如下所示(2019年05月28日16:19分的知乎热榜):
如何看待南昌红谷滩女孩子大街上被陌生人杀害事件?
安卓一旦「抛弃」华为,华为改用自研的「鸿蒙」系统,你是否愿意尝试?
如何看待珠穆朗玛峰大拥堵致 14 人死亡重大事件?
假如地球上所有体重超过 20kg 的生物都拥有人类的智商,会碰撞出怎样的文明火花?
有哪些瞬间「 hold 住全场 」的表情包?
有什么特别恐怖,听了背后凉飕飕的鬼故事?
2019 年 5 月 28 日发布的红米新旗舰 K20 手机有哪些值得一提的亮点和想吐槽的方面?
如何看待网传联邦快递私自转运华为邮件,华为将审查与联邦快递合作关系一事?
刘慈欣的作品中有哪些史诗感很强的片段?
梦会不会是在给你暗示?
为什么施工单位的年轻人越来越少了?
学习哲学有什么坏处?
有哪些让你见过就无法忘记的文身?
如何评价 HBO 新剧《切尔诺贝利》第 4 集?
晋升很快的职场人都有什么共性?
室友无意中打碎了我两瓶香水,应不应该让她赔?
有哪些很皮的句子?
现代社会为何还要学习拗口难懂的古文?
如何看待郑州「奥迪女」因孩子挡路掌掴 5 岁女童一事?
宅男如何正常和女生聊天?
游戏《全面战争:三国》有哪些技巧和战术?
如何看待现今部分医生对患者的不良态度?
人为什么会得痔疮?
男人更愿意找宝钗还是黛玉?
每天跑步五公里,能给自己带来什么?
张云雷有哪些惊艳你的神图?
为何男女比例失调下我依然没有男朋友?
《破冰行动》是以哪起真实事件改编的?具体情况是怎样的?
如何看待黄磊和王迅发两条庆祝微博?
不出国如何练就一口流利的英语?
前女友到底是怎样的存在?
是否存在某些大学辅导员比较嚣张的现象,为什么?
有哪些瘦腿的方法?
如何看待张艺兴首场演唱会 8 秒售完?
如果地球只剩你自己,你会怎样?
如何评价 Dior 的口红?
都说支付宝促进了社会信用的进步,是否夸张了?
四月中旬决定考研还来得及吗?每天至少复习多久?
如何评价《英雄联盟》重做后的「铁男」莫德凯撒?
沈眉庄为什么大家都叫她眉儿而不是庄儿?
有哪些很多人觉得很烂但你要吹爆的动漫?
如何评论张艺兴演唱会无团票,而且票价挺贵的?
有哪些「随手一做好吃又饱肚 」的美食?
如何评价《这就是街舞》第二季第二期中易烊千玺 2v2battle 的表现 ?
红米 K20 搭载全面屏和 7 代屏下指纹,说明小米产品线布局发生了哪些变化?
如何看待吴昕将钟汉良送的礼物转卖了?
经常便秘日常吃什么?
怎么评价《龙珠超:布罗利》这部作品?
黄磊在节目里叫子枫女儿,多多看了会怎么想?
有什么明日方舟玩家看了能会心一笑的笑话或图片?
python抓取知乎热榜的更多相关文章
- 爬取知乎热榜标题和连接 (python,requests,xpath)
用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...
- 使用python抓取知乎日报的API数据
使用 urllib2 抓取数据时,最简单的方法是: import urllib2, json def getStartImage(): stream = urllib2.urlopen('http:/ ...
- 用 python 抓取知乎指定回答下的视频
前言 现在知乎允许上传视频,奈何不能下载视频,好气哦,无奈之下研究一下了,然后撸了代码,方便下载视频保存. 接下来以 猫为什么一点也不怕蛇? 回答为例,分享一下整个下载过程. 调试一下 打开 F12, ...
- 用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件
抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_toda ...
- python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
- 使用Python抓取猫眼近10万条评论并分析
<一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...
- Python 抓取网页并提取信息(程序详解)
最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...
- 使用 Python 抓取欧洲足球联赛数据
Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤 数据的采集和获取 数据的清洗,抽取,变形和装载 数据的分析,探索和预测 ...
- python抓取性感尤物美女图
由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...
随机推荐
- linux命令学习笔记(49):at命令
在windows系统中,windows提供了计划任务这一功能,在控制面板 -> 性能与维护 -> 任务计划, 它的功能就是安排自动运行的任务. 通过'添加任务计划'的一步步引导,则可建立一 ...
- iOS中的日期和时间
转载于http://www.jianshu.com/p/ee279c175cf8 一.时间和日期计算 我们在应用开发中,时常需要和时间打交道,比如获取当前时间,获取两个时间点相隔的时间等等,在iOS开 ...
- 使用 Anthem.NET 的常见回调(Callback)处理方式小结
在 Anthem.NET 中,通过 XmlHttp 或 XmlHttpRequest 组件对服务器端所作的一次无刷新调用(通常是异步模式),称为一个回调(Callback). 本文内容是对 Anthe ...
- mount error(12): Cannot allocate memory解决办法
http://hi.baidu.com/zhangbin101004/item/e459f4d1f818dfbd33db903b 今天囧了啊,在ubuntu挂载的文件夹里面解压数据库,结果linux嫌 ...
- 【转】 Pro Android学习笔记(七一):HTTP服务(5):多线程调用HttpClient
目录(?)[-] 应用共享HttpClient对象的同步问题 创建共享HttpClient代码 创建共享对象 创建可共享的HttpClient对象 使用共享HttpClient对象的代码 基础代码 修 ...
- MongoDB优化之三:如何排查MongoDB CPU利用率高的问题
遇到这个问题,99.9999% 的可能性是「用户使用上不合理导致」,本文主要介绍从应用的角度如何排查 MongoDB CPU 利用率高的问题. Step1: 分析数据库正在执行的请求 用户可以通过 M ...
- css菜鸟之HTML 中块级元素设置 height:100% 的实现
HTML 中块级元素设置 height:100% 的实现 当你设置一个页面元素的高度(height)为100%时,期望这样元素能撑满整个浏览器窗口的高度,但大多数情况下,这样的做法没有任何效果. 为什 ...
- XML解析代码课堂讲解实例
//获取所有的子元素,不包括回车 package com.dom4jDemo; import java.io.File; import java.util.List; import org.dom4j ...
- javaIO 流分析总结
Java中的流,可以从不同的角度进行分类. 按照数据流的方向不同可以分为:输入流和输出流. 按照处理数据单位不同可以分为:字节流和字符流. 按照实现功能不同可以分为:节点流和处理流. 输出流: 输入流 ...
- ObservableCollection 分组后排序报错问题
ObservableCollection通过Move方法可以移动顺序,如下: 将ObservableCollection中的一个item置顶: private ObservableCollection ...