用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件
抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_today_hot.html
代码如下:
from selenium import webdriver from time import sleep import time class ZhiHu(): def __init__(self): self.dr = webdriver.Chrome() self.dr.maximize_window() self.today_hot_list = self.get_today_hot() self.month_hot_list = self.get_month_hot() def get_today_hot(self): '''知乎今日最热问题前3个''' today_hot = [] i = 0 while i < 3: self.dr.get('https://www.zhihu.com/explore') sleep(3) question_title = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].text #获取问题 question_answer_url = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].get_attribute('href') #获取问题回答的url self.dr.get(question_answer_url) #访问问题url sleep(5) question_answer_innerhtml = self.dr.find_element_by_css_selector('.zm-editable-content.clearfix').get_attribute('innerHTML') #获取首个回答的innerHTML today_hot.append((question_title, question_answer_innerhtml)) i += 1 return today_hot def write_today_data(self): file_date = time.strftime('%Y-%m-%d',time.localtime(time.time())) self.file = open(file_date+'_zhihu_today_hot'+'.html','wb') file_line = '**********************************************<br />' #<br \>为转行符 for item in self.today_hot_list: self.file.write(file_line.encode('gbk')) self.file.write(('问题:'+item[0]+'<br />').encode('gbk')) self.file.write(('首个回答:'+item[1]+'<br />').encode('gbk')) self.file.close() def get_month_hot(self): '''知乎本月最热问题前3个''' month_hot = [] i = 5 # 本月最热前已有5个含explore-feed feed-item的div标签,所以这里含explore-feed.feed-item的div标签及其定义的i从5开始 while i < 8: self.dr.get('https://www.zhihu.com/explore#monthly-hot') sleep(3) question_title = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].text # 获取问题 question_answer_url = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].get_attribute('href') # 获取问题回答的url self.dr.get(question_answer_url) # 访问问题url sleep(5) question_answer_innerhtml = self.dr.find_element_by_css_selector('.zm-editable-content.clearfix').get_attribute('innerHTML') # 获取首个回答的innerHTML month_hot.append((question_title, question_answer_innerhtml)) i += 1 return month_hot def write_month_data(self): file_date = time.strftime('%Y-%m-%d', time.localtime(time.time())) self.file = open(file_date + '_zhihu_mouth_hot' + '.html', 'wb') file_line = '--------------------------------------<br />' for item in self.month_hot_list: self.file.write(file_line.encode('gbk')) self.file.write(('问题:' + item[0] + '<br />').encode('gbk')) self.file.write(('首个回答:' + item[1] + '<br />').encode('gbk')) self.file.close() def quit(self): self.dr.quit() if __name__ == '__main__': zhihu = ZhiHu() zhihu.write_today_data() zhihu.write_month_data() zhihu.quit()
网页如下:
生成html如下:
嘻嘻,html的排版不是多好哈~
用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件的更多相关文章
- python学习-抓取知乎图片
#!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...
- 用python+selenium抓取微博24小时热门话题的前15个并保存到txt中
抓取微博24小时热门话题的前15个,抓取的内容请保存至txt文件中,需要抓取排行.话题和阅读数 #coding=utf-8 from selenium import webdriver import ...
- 用python+selenium抓取豆瓣读书中最受关注图书并按评分排序
抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评 方法一: #coding=utf-8 ...
- 用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序
抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...
- Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺
更新 其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...
- selenium抓取动态网页数据
1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...
- python Web抓取(一)[没写完]
需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...
- selenium抓取视频
今天闲着没事,用selenium抓取视频保存到本地,只爬取了第一页,只要小于等于5分钟的视频... 为什么不用requests,没有为什么,就因为有些网站正则和xpath都提取不出来想要的东西,要么就 ...
- Python数据抓取技术与实战 pdf
Python数据抓取技术与实战 目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...
随机推荐
- 非域环境下使用证书部署数据库(SqlServer2008R2)镜像
非域环境下使用证书部署数据库(SqlServer2008R2)镜像 前言 部署数据库镜像一般有两种方式域环境下部署http://liulike.blog.51cto.com/1355103/33918 ...
- 如何更换centos6源
1.wget http://mirrors.163.com/.help/CentOS6-Base-163.repo 2.根据教程:http://mirrors.163.com/.help/centos ...
- 配置DelegatingFilterProxy使用Spring管理filter chain
项目环境:JDK7 + Maven3.04 0. 项目使用springmvc作为controller层 1. 引入spring-security <dependency> <grou ...
- Redis集群部署
1.1.1redis简介 Redis 是一个开源的使用 ANSI C 语言编写.支持网络.可基于内存亦可持久化的日志 型. Key-Value数据库 1.1.2redis常见使用场景 1.会话缓存(S ...
- NPOI
使用 NPOI 你就可以在没有安装 Office 或者相应环境的机器上对 WORD/EXCEL 文档进行读写.NPOI是构建在POI 3.x版本之上的,它可以在没有安装Office的情况下对Word/ ...
- SpringMVC与MyBatis整合(一)——查询人员列表
从今天开始,一点点的记录做毕设和学习的过程. 寒假才开始接触SpringMVC和MyBatis,之前对框架的概念理解并不到位,也没学过Spring.目前学习起来思路并不很清晰,有些东西我还不能理解,只 ...
- BOOL和bool的区别
一. 1.类型不同 BOOL为int型 bool为布尔型 2.长度不同 bool只有一个字节 BOOL长度视实际环境来定,一般可认为是4个字节 3.取值不同 bool取值false和true,是0和1 ...
- HTML,CSS,font-family:中文字体的英文名称 (宋体 微软雅黑)
工作中遇到的问题,上网看到别人整理的,我就记下来,嘻嘻!!! 宋体 SimSun 黑体 SimHei 微软雅黑 Microsoft YaHei 微软正黑体 Microsoft JhengHei 新宋体 ...
- silverlight导出excel
开发导出excel,首先需要添加项目引用. Microsoft.CSharp 这个是应用dynamic的前提. 在代码页,需要添加引用 using System.Runtime.InteropServ ...
- 配置指定使用tcc编译器编译nim程序
1.前言 nim是什么? nim是一门静态编译型语言,语法类似python,nim的代码被翻译成C代码再被C编译器编译成可执行文件.因此nim的可执行文件比较小,性能应该也不错. 最简单的nim程序就 ...