知乎热榜讨论话题,https://www.zhihu.com/hot,本文用python抓取下来分析

#!/usr/bin/python
# -*- coding: UTF-8 -*- from urlparse import urljoin import re
import requests def main():
headers = {'user-agent':'Baiduspider',
'cookie':'*****'
}
proxies = {
'http':'http://122.114.31.177:808'
}
base_url = 'https://www.zhihu.com/'
seed_url = urljoin(base_url, 'hot')
resp = requests.get(seed_url,
headers=headers,
proxies=proxies)
html = resp.text
match_obj = re.compile(r'<h2 class="HotItem-title">.*?</h2>', re.S)
results = re.findall(match_obj, html)
for item in results:
match_title = r'<h2 class="HotItem-title">(.*?)</h2>'
title = re.findall(match_title, item)[0]
print title if __name__ == '__main__':
main()

最后抓取到的话题如下所示(2019年05月28日16:19分的知乎热榜):

如何看待南昌红谷滩女孩子大街上被陌生人杀害事件?
安卓一旦「抛弃」华为,华为改用自研的「鸿蒙」系统,你是否愿意尝试?
如何看待珠穆朗玛峰大拥堵致 14 人死亡重大事件?
假如地球上所有体重超过 20kg 的生物都拥有人类的智商,会碰撞出怎样的文明火花?
有哪些瞬间「 hold 住全场 」的表情包?
有什么特别恐怖,听了背后凉飕飕的鬼故事?
2019 年 5 月 28 日发布的红米新旗舰 K20 手机有哪些值得一提的亮点和想吐槽的方面?
如何看待网传联邦快递私自转运华为邮件,华为将审查与联邦快递合作关系一事?
刘慈欣的作品中有哪些史诗感很强的片段?
梦会不会是在给你暗示?
为什么施工单位的年轻人越来越少了?
学习哲学有什么坏处?
有哪些让你见过就无法忘记的文身?
如何评价 HBO 新剧《切尔诺贝利》第 4 集?
晋升很快的职场人都有什么共性?
室友无意中打碎了我两瓶香水,应不应该让她赔?
有哪些很皮的句子?
现代社会为何还要学习拗口难懂的古文?
如何看待郑州「奥迪女」因孩子挡路掌掴 5 岁女童一事?
宅男如何正常和女生聊天?
游戏《全面战争:三国》有哪些技巧和战术?
如何看待现今部分医生对患者的不良态度?
人为什么会得痔疮?
男人更愿意找宝钗还是黛玉?
每天跑步五公里,能给自己带来什么?
张云雷有哪些惊艳你的神图?
为何男女比例失调下我依然没有男朋友?
《破冰行动》是以哪起真实事件改编的?具体情况是怎样的?
如何看待黄磊和王迅发两条庆祝微博?
不出国如何练就一口流利的英语?
前女友到底是怎样的存在?
是否存在某些大学辅导员比较嚣张的现象,为什么?
有哪些瘦腿的方法?
如何看待张艺兴首场演唱会 8 秒售完?
如果地球只剩你自己,你会怎样?
如何评价 Dior 的口红?
都说支付宝促进了社会信用的进步,是否夸张了?
四月中旬决定考研还来得及吗?每天至少复习多久?
如何评价《英雄联盟》重做后的「铁男」莫德凯撒?
沈眉庄为什么大家都叫她眉儿而不是庄儿?
有哪些很多人觉得很烂但你要吹爆的动漫?
如何评论张艺兴演唱会无团票,而且票价挺贵的?
有哪些「随手一做好吃又饱肚 」的美食?
如何评价《这就是街舞》第二季第二期中易烊千玺 2v2battle 的表现 ?
红米 K20 搭载全面屏和 7 代屏下指纹,说明小米产品线布局发生了哪些变化?
如何看待吴昕将钟汉良送的礼物转卖了?
经常便秘日常吃什么?
怎么评价《龙珠超:布罗利》这部作品?
黄磊在节目里叫子枫女儿,多多看了会怎么想?
有什么明日方舟玩家看了能会心一笑的笑话或图片?

python抓取知乎热榜的更多相关文章

  1. 爬取知乎热榜标题和连接 (python,requests,xpath)

    用python爬取知乎的热榜,获取标题和链接. 环境和方法:ubantu16.04.python3.requests.xpath 1.用浏览器打开知乎,并登录 2.获取cookie和User—Agen ...

  2. 使用python抓取知乎日报的API数据

    使用 urllib2 抓取数据时,最简单的方法是: import urllib2, json def getStartImage(): stream = urllib2.urlopen('http:/ ...

  3. 用 python 抓取知乎指定回答下的视频

    前言 现在知乎允许上传视频,奈何不能下载视频,好气哦,无奈之下研究一下了,然后撸了代码,方便下载视频保存. 接下来以 猫为什么一点也不怕蛇? 回答为例,分享一下整个下载过程. 调试一下 打开 F12, ...

  4. 用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件

    抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_toda ...

  5. python学习-抓取知乎图片

    #!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...

  6. 使用Python抓取猫眼近10万条评论并分析

    <一出好戏>讲述人性,使用Python抓取猫眼近10万条评论并分析,一起揭秘“这出好戏”到底如何? 黄渤首次导演的电影<一出好戏>自8月10日在全国上映,至今已有10天,其主演 ...

  7. Python 抓取网页并提取信息(程序详解)

    最近因项目需要用到python处理网页,因此学习相关知识.下面程序使用python抓取网页并提取信息,具体内容如下: #---------------------------------------- ...

  8. 使用 Python 抓取欧洲足球联赛数据

    Web Scraping在大数据时代,一切都要用数据来说话,大数据处理的过程一般需要经过以下的几个步骤    数据的采集和获取    数据的清洗,抽取,变形和装载    数据的分析,探索和预测    ...

  9. python抓取性感尤物美女图

    由于是只用标准库,装了python3运行本代码就能下载到多多的美女图... 写出代码前面部分的时候,我意识到自己的函数设计错了,强忍继续把代码写完. 测试发现速度一般,200K左右的下载速度,也没有很 ...

随机推荐

  1. linux命令学习笔记(8):cp 命令

    cp命令用来复制文件或者目录,是Linux系统中最常用的命令之一.一般情况下,shell会设置一个别名, 在命令行下复制文件时,如果目标文件已经存在,就会询问是否覆盖,不管你是否使用-i参数.但是如果 ...

  2. linux 在后台运行数据库导入导出命令

    nohup imp dbusername/password@orcl file=/home/20170928.dmp ignore=y log=/home/oracle/20170928.log fu ...

  3. 1014 Waiting in Line (30)(30 分)

    Suppose a bank has N windows open for service. There is a yellow line in front of the windows which ...

  4. 使用NSURLProtocol和NSURLSession拦截UIWebView的HTTP请求(包括ajax请求)

    问题:服务器端有一个网站需要AD认证,整站都开了Basic认证,包括图片,CSS等资源,我在HTTP请求头里面添加认证所需的用户名和密码,传递到服务器端可以认证通过.我在UIWebView的shoul ...

  5. centos6.6系统初始化脚本

    #!/bin/bash # Program: # system_init_shell # History: # 2012/06/01 25061008@qq.com # Release: # 1.1 ...

  6. POJ3630(Trie树)

    Phone List Time Limit: 1000MS   Memory Limit: 65536K Total Submissions: 26385   Accepted: 7957 Descr ...

  7. 【转】Pro Android学习笔记(十七):用户界面和控制(5):日期和时间控件

    目录(?)[-] DatePicker和TimePicker控件 DigitalClock和AnalogClock控件 DatePicker和TimePicker控件 使用DatePicker和Tim ...

  8. Springboot监控之一:SpringBoot四大神器之Actuator之2--spring boot健康检查对Redis的连接检查的调整

    因为项目里面用到了redis集群,但并不是用spring boot的配置方式,启动后项目健康检查老是检查redis的时候状态为down,导致注册到eureka后项目状态也是down.问下能不能设置sp ...

  9. DNS Doctoring

    NAT的应用可以让路由器在不同地址域内路由数据包.一个暴露在外的应用服务器,通常同时拥有了内网和外网的IP地址.这在DNS解析时可能带来麻烦. 根据DNS服务器的部署位置和配置,对同一内网中的应用服务 ...

  10. 1 ELK 简介

    日志主要包括系统日志.应用程序日志和安全日志,系统运维和开发人员可以通过日志了解服务器软硬件信息.检查配置过程中的错误及错误发生的原因.经常分析日志可以了解服务器的负荷,性能安全性,从而及时采取措施纠 ...