抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答,保存至html文件,该html文件的文件名应该是20160228_zhihu_today_hot.html,也就是日期+zhihu_today_hot.html

代码如下:

 from selenium import webdriver
 from time import sleep
 import time

 class ZhiHu():

     def __init__(self):
         self.dr = webdriver.Chrome()
         self.dr.maximize_window()
         self.today_hot_list = self.get_today_hot()
         self.month_hot_list = self.get_month_hot()

     def get_today_hot(self):
         '''知乎今日最热问题前3个'''
         today_hot = []
         i = 0
         while i < 3:
             self.dr.get('https://www.zhihu.com/explore')
             sleep(3)
             question_title = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].text #获取问题
             question_answer_url = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].get_attribute('href') #获取问题回答的url
             self.dr.get(question_answer_url) #访问问题url
             sleep(5)
             question_answer_innerhtml = self.dr.find_element_by_css_selector('.zm-editable-content.clearfix').get_attribute('innerHTML') #获取首个回答的innerHTML
             today_hot.append((question_title, question_answer_innerhtml))
             i += 1
         return today_hot

     def write_today_data(self):
         file_date = time.strftime('%Y-%m-%d',time.localtime(time.time()))
         self.file = open(file_date+'_zhihu_today_hot'+'.html','wb')
         file_line = '**********************************************<br />' #<br \>为转行符
         for item in self.today_hot_list:
             self.file.write(file_line.encode('gbk'))
             self.file.write(('问题:'+item[0]+'<br />').encode('gbk'))
             self.file.write(('首个回答:'+item[1]+'<br />').encode('gbk'))
         self.file.close()

     def get_month_hot(self):
         '''知乎本月最热问题前3个'''
         month_hot = []
         i = 5  # 本月最热前已有5个含explore-feed feed-item的div标签,所以这里含explore-feed.feed-item的div标签及其定义的i从5开始
         while i < 8:
             self.dr.get('https://www.zhihu.com/explore#monthly-hot')
             sleep(3)
             question_title = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].text  # 获取问题
             question_answer_url = self.dr.find_elements_by_css_selector('div.explore-feed.feed-item>h2>a.question_link')[i].get_attribute('href')  # 获取问题回答的url
             self.dr.get(question_answer_url)  # 访问问题url
             sleep(5)
             question_answer_innerhtml = self.dr.find_element_by_css_selector('.zm-editable-content.clearfix').get_attribute('innerHTML')  # 获取首个回答的innerHTML
             month_hot.append((question_title, question_answer_innerhtml))
             i += 1
         return month_hot

     def write_month_data(self):
         file_date = time.strftime('%Y-%m-%d', time.localtime(time.time()))
         self.file = open(file_date + '_zhihu_mouth_hot' + '.html', 'wb')
         file_line = '--------------------------------------<br />'
         for item in self.month_hot_list:
             self.file.write(file_line.encode('gbk'))
             self.file.write(('问题:' + item[0] + '<br />').encode('gbk'))
             self.file.write(('首个回答:' + item[1] + '<br />').encode('gbk'))
         self.file.close()

     def quit(self):
         self.dr.quit()

 if __name__ == '__main__':
     zhihu = ZhiHu()
     zhihu.write_today_data()
     zhihu.write_month_data()
     zhihu.quit()

网页如下:

生成html如下:

嘻嘻,html的排版不是多好哈~

用python+selenium抓取知乎今日最热和本月最热的前三个问题及每个问题的首个回答并保存至html文件的更多相关文章

  1. python学习-抓取知乎图片

    #!/bin/usr/env python3 __author__ = 'nxz' """ 抓取知乎图片webdriver Chromedriver驱动需要安装,并指定d ...

  2. 用python+selenium抓取微博24小时热门话题的前15个并保存到txt中

    抓取微博24小时热门话题的前15个,抓取的内容请保存至txt文件中,需要抓取排行.话题和阅读数 #coding=utf-8 from selenium import webdriver import ...

  3. 用python+selenium抓取豆瓣读书中最受关注图书并按评分排序

    抓取豆瓣读书中的(http://book.douban.com/)最受关注图书,按照评分排序,并保存至txt文件中,需要抓取书籍的名称,作者,评分,体裁和一句话评 方法一: #coding=utf-8 ...

  4. 用python+selenium抓取豆瓣电影中的正在热映前12部电影并按评分排序

    抓取豆瓣电影(http://movie.douban.com/nowplaying/chengdu/)中的正在热映前12部电影,并按照评分排序,保存至txt文件 #coding=utf-8 from ...

  5. Python爬虫实战八之利用Selenium抓取淘宝匿名旺旺

    更新 其实本文的初衷是为了获取淘宝的非匿名旺旺,在淘宝详情页的最下方有相关评论,含有非匿名旺旺号,快一年了淘宝都没有修复这个. 可就在今天,淘宝把所有的账号设置成了匿名显示,SO,获取非匿名旺旺号已经 ...

  6. selenium抓取动态网页数据

    1.selenium抓取动态网页数据基础介绍 1.1 什么是AJAX AJAX(Asynchronouse JavaScript And XML:异步JavaScript和XML)通过在后台与服务器进 ...

  7. python Web抓取(一)[没写完]

    需要的模块: python web抓取通过: webbrowser:是python自带的,打开浏览器获取指定页面 requests:从因特网上下载文件和网页 Beautiful Soup:解析HTML ...

  8. selenium抓取视频

    今天闲着没事,用selenium抓取视频保存到本地,只爬取了第一页,只要小于等于5分钟的视频... 为什么不用requests,没有为什么,就因为有些网站正则和xpath都提取不出来想要的东西,要么就 ...

  9. Python数据抓取技术与实战 pdf

    Python数据抓取技术与实战 目录 D11章Python基础1.1Python安装1.2安装pip1.3如何查看帮助1.4D1一个实例1.5文件操作1.6循环1.7异常1.8元组1.9列表1.10字 ...

随机推荐

  1. chattr和lsattr

    这两个命令是和权限有关 1.chattr +i carlton.txt 对carlton.txt文件进行锁定,谁也不能进行任何修改,取消的话可以chattr -i carlton.txt 就可以 2. ...

  2. swift-分支语句

    // switch的基本用法 // 1>switch后面的()可以省略 // 2>case中语句结束后不需要跟break // 3>在case中定义局部变量不需要跟{} // 4&g ...

  3. Android数据存储方式

    Android提供了5种方式存储数据: 1.使用SharedPreferences存储数据:它是Android提供的用来存储一些简单配置信息的一种机制,采用了XML格式将数据存储到设备中.只能在同一个 ...

  4. spider_jpg

    __author__ = 'sus' #urllib模块提供了读取Web页面数据的接口import urllib#re模块主要包含了正则表达式import re#定义一个getHtml()函数def ...

  5. HDFS副本存放策略

    在client向DataNode写入block之前,会与NameNode有一次通信,由NameNode来选择指定数目的DataNode来存放副本.具体的副本选择策略在BlockPlacementPol ...

  6. 【 2013 Multi-University Training Contest 2 】

    HDU 4611 Balls Rearrangement 令lcm=LCM(a,b),gcd=GCD(a,b).cal(n,a,b)表示sum(abs(i%a-i%b)),0<=i<n. ...

  7. 易云盘(nester)-面对企业的和团队文档管理的平台

    易云盘(nester)是本人的另外一款作品,先前开发和维护的在线设计工具Visor也已经合并在Nester的最新版里了. 目前作为共享版发布. 特点 Nester后端是以Spring Framewor ...

  8. android中添加背景音乐

    方法一:这是使用java中的多线程,另外new出一个类,用类来启动音乐. 这个方法,就像当初写java的小游戏一样,不过是在电脑上运行的,可以控制每一个动作,比如你的触碰动作,但是,在我这个游戏中,我 ...

  9. golang中不定参数与数组切片的区别

    package main import "fmt" func main() { myfunc1(, , , ) //传递不定数量的参数 myfunc2([], , , }) //传 ...

  10. Yii 多个子目录同步登录

    ---恢复内容开始--- 配置文件中:  1 'components'=>array( 'user'=>array( 'class'=>'CWebUser', 'identityCo ...