selenium滚动条应用，爬永远讲不完的故事

from selenium import webdriver

class Lj(object):
    def __init__(self):
        self.driver = webdriver.Chrome()
        url = 'http://www.99lib.net/book/1222/34747.htm'
        self.driver.get(url)
        self.driver.maximize_window()
        self.driver.implicitly_wait(10)

    # 获取标题
    def get_title(self):
        dr = self.driver
        title = dr.find_element_by_xpath('//*[@id="content"]/h2').text
        return title

    # 获取内容
    def get_content(self):
        dr = self.driver
        content = dr.find_element_by_xpath('//*[@id="content"]').text
        return content

    # 保存
    def file(self,data):
        with open('永远讲不完的故事.txt','a',encoding='utf-8') as f:
            f.write(data + '\n')

    def gun(self):
        dr = self.driver
        js = "var q=document.documentElement.scrollTop=100000"
        dr.execute_script(js)

    # 翻页
    def next(self):
        dr = self.driver
        dr.find_element_by_link_text('下一页').click()

    # 执行
    def run(self):
        dr = self.driver
        title = self.get_title()
        print(title)
        while True:
            try:
                el = dr.find_element_by_link_text('下一页')
                content = self.get_content()
                self.file(title)
                self.file(content)
                self.next()
                break
            except:
                self.gun()

a = Lj()
while True:
    a.run()

selenium滚动条应用，爬永远讲不完的故事的更多相关文章

一起学爬虫——使用selenium和pyquery爬取京东商品列表
layout: article title: 一起学爬虫--使用selenium和pyquery爬取京东商品列表 mathjax: true --- 今天一起学起使用selenium和pyquery爬 ...
爬虫（四）Selenium + Headless Chrome爬取Bing图片搜索结果
Bing图片搜索结果是动态加载的,如果我们直接用requests去访问页面爬取数据,那我们只能拿到很少的图片.所以我们使用Selenium + Headless Chrome来爬取搜索结果.在开始前, ...
爬虫-----selenium模块自动爬取网页资源
selenium介绍与使用 1 selenium介绍什么是selenium?selenium是Python的一个第三方库,对外提供的接口可以操作浏览器,然后让浏览器完成自动化的操作. sel ...
Python爬虫初探 - selenium+beautifulsoup4+chromedriver爬取需要登录的网页信息
目标之前的自动答复机器人需要从一个内部网页上获取的消息用于回复一些问题,但是没有对应的查询api,于是想到了用脚本模拟浏览器访问网站爬取内容返回给用户.详细介绍了第一次探索python爬虫的坑. 准 ...
selenium+BeautifulSoup+phantomjs爬取新浪新闻
一下载phantomjs,把phantomjs.exe的文件路径加到环境变量中,也可以phantomjs.exe拷贝到一个已存在的环境变量路径中,比如我用的anaconda,我把phantomjs. ...
python+selenium实现动态爬取及selenuim的常用操作
应用实例可以参考博客中的12306自动抢票应用 https://www.cnblogs.com/mumengyun/p/10001109.html 动态网页数据抓取什么是AJAX: AJAX(Asy ...
Python3 Scrapy + Selenium + 阿布云爬取拉钩网学习笔记
1 需求分析想要一个能爬取拉钩网职位详情页的爬虫,来获取详情页内的公司名称.职位名称.薪资待遇.学历要求.岗位需求等信息.该爬虫能够通过配置搜索职位关键字和搜索城市来爬取不同城市的不同职位详情信息, ...
Selenium&PhantomJS 完成爬取网络代理
Selenium模块是一套完整的Web应用程序测试系统,它包含了测试的录制(SeleniumIDE).编写及运行(Selenium Remote Control)和测试的并行处理(Selenimu G ...
Selenium滚动条window.scrollTo和window.scrollBy
Selenium操作滚动条有两种方法,一种就是window.scrollTo,另一种是window.scrollBy,既然两个都可以用来操作滚动条,那这两个方法有什么区别呢? 1.window.scr ...

随机推荐

Spring源码分析——(001)环境搭建
1.官方参考 spring-framework的github链接:https://github.com/spring-projects/spring-framework 源码环境搭建官方参考1:考如何 ...
二十八、SAP中通过以字段以表格形式输出
一.重点在与表格长度的计算,以及LINE-SIZE的用法,代码如下二.输出效果如下
C# Stream篇（七） -- NetworkStream
NetworkStream 目录: NetworkStream的作用简单介绍下TCP/IP 协议和相关层次简单说明下 TCP和UDP的区别简单介绍下套接字(Socket)的概念简单介绍下Tcp ...
PyCharm下创建并运行我们的第一个Django项目
PyCharm下创建并运行我们的第一个Django项目准备工作: 假设读者已经安装好python 2x或3x,以及安装好Django,以及Pycharm 1. 创建一个新的工程第一次运行Pycha ...
Spring入门之一-------实现一个简单的IoC
一.场景模拟 public interface Human { public void goHome(); } Human:人类,下班了该回家啦 public interface Car { void ...
<强化学习>基本概念
马尔可夫决策过程MDP,是强化学习的基础. MDP --- <S,A,P,R,γ> AGENT STATE ENV REWARD ,由ENV给出.agent处于状态s下,采取acti ...
Python操作APP -- Appium-Python-Client
Appium连接模拟器 pip install Appium-Python-Client 使用Appium定位或者使用辅助定位工具 SDK安装目录/tools/bin,双击此辅助定位工具 from a ...
Django xadmin图片上传与缩略图处理
基本摘要用python django开发时,个人选中Xadmin后台管理系统框架,因为它*内置功能丰富, 不仅提供了基本的CRUD功能,还内置了丰富的插件功能.包括数据导出.书签.图表.数据添加向导 ...

selenium滚动条应用，爬永远讲不完的故事

selenium滚动条应用，爬永远讲不完的故事的更多相关文章

随机推荐

热门专题