[Selenium2+python2.7][Scrap]爬虫和selenium方式下拉滚动条获取简书作者目录并且生成Markdown格式目录

预计阅读时间： 15分钟

环境： win7 + Selenium2.53.6+python2.7 +Firefox 45.2 (具体配置参考 http://www.cnblogs.com/yoyoketang/p/selenium.html)

FF45.2 官方下载地址： http://ftp.mozilla.org/pub/firefox/releases/45.2.0esr/win64/en-US/

痛点：爸爸的一个朋友最近简书上面更新了20多篇文章，让我添加目录。每次手动查找链接再添加标题太麻烦了，30多篇就需要半个多小时，而且链接可能会变换。

解决办法：由于简书支持markdown 格式，爬取作者目录然后生成Markdown格式文档即可

原始思路一：采用urllib2方式爬取目录

步骤：

1.使用urllib2模拟header request打开页面

2. 采用正则匹配href的链接，然后用列表推导式生成链接

3. 采用正则获取标题

4. 生成目录

 #coding=utf-8

 import urllib2,re

 def getHtml(url):

     header = {"User-Agent":'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.101 Safari/537.36'}

     request = urllib2.Request(url,headers=header)  #init user request with url and headers

     response = urllib2.urlopen(request)            #open url

     text = response.read()

     return text

 def getTitleLink(html):

     pattern1 = re.compile('<a class="title" target="_blank" href="/p/(\w{0,12})"', re.S)

     links = re.findall(pattern1,html)

     urls = ["www.jianshu.com/p/"+str(link) for link in links]

     pattern2 = re.compile('<a class="title" target="_blank" href="/p/.*?">(.*?)</a>',re.S)

     titles = re.findall(pattern2,html)

     for title,url in zip(titles,urls):

         if r'目录' not in title:

             print "["+title+"](" + url + ")"

     #return urls

 #sample test menu

 url = 'http://www.jianshu.com/u/73632348f37a'

 html = getHtml(url)

 getTitleLink(html)

测试发现如果作者文章只有五六篇，能正确生成。

但是如果文章20篇以上，发现问题：

这种办法只爬取了当前页面加载的文章链接，手工拖拽滚动条动态加载的标题内容无法直接获取到，网上建议用selenium来解决

思路二：采用selenium打开网页，调用js模拟鼠标点击滚动条，加载全部页面

步骤：

1. 使用selenium打开网页

2. 循环调用js模拟鼠标点击下拉滚动条，直至加载全部页面

3. 使用find_elements_by_xpath查找标题tag

4. 将标题tag解析后写入目录并打印

注：步骤3获取的为WebElement 类型对象

 #coding=utf-8

 #refer to http://www.cnblogs.com/haigege/p/5492177.html

 #Step1: scroll and generate Markdown format Menu

 from selenium import webdriver

 import time

 def scroll_top(driver):

     if driver.name == "chrome":

         js = "var q=document.body.scrollTop=0"

     else:

         js = "var q=document.documentElement.scrollTop=0"

     return driver.execute_script(js)

 # 拉到底部

 def scroll_foot(driver):

     if driver.name == "chrome":

         js = "var q=document.body.scrollTop=100000"

     else:

         js = "var q=document.documentElement.scrollTop=100000"

     return driver.execute_script(js)

 def write_text(filename, info):

     """

     :param info: 要写入txt的文本内容

     :return: none

     """

     # 创建/打开info.txt文件，并写入内容

     with open(filename, 'a+') as fp:

         fp.write(info.encode('utf-8'))

         fp.write('\n'.encode('utf-8'))

         fp.write('\n'.encode('utf-8'))

 def sroll_multi(driver,times=5,loopsleep=2):

     #40 titles about 3 times

     for i in range(times):

         time.sleep(loopsleep)

         print "Scroll foot %s time..." % i

         scroll_foot(driver)

     time.sleep(loopsleep)

 #Note: titles is titles_WebElement type object

 def write_menu(filename,titles):

     with open(filename, 'w') as fp:

         pass

     for title in titles:

         if r'目录' not in title.text:

             print "[" + title.text + "](" + title.get_attribute("href") + ")"

             t = title.text.encode('utf-8')

             t = title.text.replace(":", "：")

             t = title.text.replace("|", "丨")

             t = title.text.decode('utf-8')

             write_text(filename, "[" + t + "](" + title.get_attribute("href") + ")")

             #assert type(title) == "WebElement"

             #print type(title)

 def main(url):

     # eg. <a class="title" href="/p/6f543f43aaec" target="_blank"> titleXXX</a>

     driver = webdriver.Firefox()

     driver.implicitly_wait(10)

     # driver.maximize_window()

     driver.get(url)

     sroll_multi(driver)

     titles = driver.find_elements_by_xpath('.//a[@class="title"]|.//a[target="_blank"]')

     write_menu(filename, titles)

 if __name__ == '__main__':

     # sample link

     url = 'http://www.jianshu.com/u/73632348f37a'

     filename = r'info.txt'

     main(url)

注：

1. 参考链接： http://www.cnblogs.com/haigege/p/5492177.html

2. 环境下载:Firefox45: https://ftp.mozilla.org/pub/firefox/releases/45.0esr/win64/en-US/

3. 如果编码格式报错，添加

reload(sys)

sys.setdefaultencoding('utf8')

[Selenium2+python2.7][Scrap]爬虫和selenium方式下拉滚动条获取简书作者目录并且生成Markdown格式目录的更多相关文章

selenium操作下拉滚动条的几种方法
数据采集中,经常遇到动态加载的数据,我们经常使用selenium模拟浏览器操作,需要多次下拉刷新页面才能采集到所有的数据,就此总结了几种selenium操作下拉滚动条的几种方法我这里演示的是Java ...
python中selenium操作下拉滚动条方法汇总
UI自动化中经常会遇到元素识别不到,找不到的问题,原因有很多,比如不在iframe里,xpath或id写错了等等:但有一种是在当前显示的页面元素不可见,拖动下拉条后元素就出来了. 比如下面这样一个网页 ...
python中selenium操作下拉滚动条方法
场景:在当前显示的页面元素不可见,拖动下拉条后元素就出来了. 解决方法: 在python中有几种方法解决这种问题,简单介绍下,给需要的人: 方法一)使用js脚本直接操作,方法如下: #将页面滚动条拖到 ...
[Python爬虫] Selenium +phantomjs 模拟下拉滚动条
在爬虫中,有时会遇到这种情况,数据的展示是不是一页一页的,而是通过不断的下拉滚动条来加载数据.例如一点咨询(http://www.yidianzixun.com/)和微博(在未登录的状态下:http: ...
selenium的下拉选择框
今天总结下selenium的下拉选择框.我们通常会遇到两种下拉框,一种使用的是html的标签select,另一种是使用input标签做的假下拉框. 后者我们通常的处理方式与其他的元素类似,点击或使用J ...
selenium之下拉选择框Select
今天总结下selenium的下拉选择框.我们通常会遇到两种下拉框,一种使用的是html的标签select,另一种是使用input标签做的假下拉框. 后者我们通常的处理方式与其他的元素类似,点击或使用J ...
Java+selenium 如何下拉移动滚动条【实战】
一.场景:在编写脚本过程中需要定位的元素,在界面的底部,需要拖拽下拉滚动条,再进行定位元素. 实现思路:用Selenium 里面的 scrollTo 方法实现二.脚本示例: 1. 用例设计 @The ...
selenium下拉滚动条
selenium下拉滚动条制作人:全心全意谷歌浏览器下拉滚动条 chrome = webdriver.Chrome() //创建谷歌浏览器对象 url="http://www.baidu ...
自动化测试-11.selenium的下拉框处理类Select
前言最近由于工作原因,更新慢了一点,今天终于抽出一点时间给大家继续更新selenium系列,学习的脚本不能停止,希望小伙伴能多多支持. 本篇以百度设置下拉选项框为案例,详细介绍select下拉框相关 ...

随机推荐

DB2中的NVL和NVL2函数
NVL函数是一个空值转换函数 NVL(表达式1,表达式2) 如果表达式1为空值,NVL返回值为表达式2的值,否则返回表达式1的值. 该函数的目的是把一个空值(null)转换成一个实际的值.其表达式的值 ...
iOS-UIToolbar与UISearchBar
组件_ UIToolbar /** 1. 顶部toolbar 2. TextField可以以UIBarButtonItem的自定义视图的方式加入toolbar 3. 三个按钮 4. 将UIBarBu ...
myeclipse安装activiti-designer
将压缩包中的features和plugins放到dropins下,然后重启myeclipse activiti-designer下载地址: 链接:https://pan.baidu.com/s/19u ...
linux SSH 隧道
一什么是SSH隧道首先看下面这张图,我们所面临的大部分情况都和它类似.我们的电脑在右上角,通过公司带有防火墙功能的路由器接入互联网(当然可能还有交换机什么的在中间连接着你和路由器,但是在我们的 ...
【C/C++开发】ffplay中的FrameQueue的自我理解
最近在研究ffplay,以下是本人今天在研究FrameQueue的时候整理的笔记,如有错误还请有心人指出来~ //这个队列是一个循环队列,windex是指其中的首元素,rindex是指其中的尾部元素. ...
spring 中常用的两种事务配置方式
引用:http://blog.csdn.net/qh_java/article/details/51811533 引用:http://www.cnblogs.com/rushoooooo/archiv ...
Jquery生成二维码(微信中长按图片识别二维码功能)
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
【leetcode算法-简单】27. 移除元素
[题目描述] 给定一个数组 nums 和一个值 val,你需要原地移除所有数值等于 val 的元素,返回移除后数组的新长度. 不要使用额外的数组空间,你必须在原地修改输入数组并在使用 O(1) 额外空 ...
[转帖]持久化journalctl日志清空命令查看配置参数详解
持久化journalctl日志清空命令查看配置参数详解最近 linux上面部署服务习惯使用systemd 进行处理这样最大的好处能够使用journalctl 进行查看日志信息. 今天清理了下 ...
pipreqs 生成项目依赖的第三方包
项目开发的时候,总是要搭建和部署环境. 如果项目使用virtualenv环境,直接使用使用命令行pip freeze可以帮助我们自动生成项目所需要的环境 requirements.txt文件 $ pi ...

[Selenium2+python2.7][Scrap]爬虫和selenium方式下拉滚动条获取简书作者目录并且生成Markdown格式目录

[Selenium2+python2.7][Scrap]爬虫和selenium方式下拉滚动条获取简书作者目录并且生成Markdown格式目录的更多相关文章

随机推荐

热门专题