python+selenium爬取百度文库不能下载的word文档

有些时候我们需要用到百度文库的某些文章时，却发现需要会员才能下载，很难受，其实我们可以通过爬虫的方式来获取到我们所需要的文本。

工具：python3.7+selenium+任意一款编辑器

前期准备：可以正常使用的浏览器，这里推荐chrome，一个与浏览器同版本的驱动，这里提供一个下载驱动的链接https://chromedriver.storage.googleapis.com/77.0.3865.40/chromedriver_win32.zip

首先我们来看一下百度文库中这一篇文章https://wenku.baidu.com/view/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.html

可以看到，在文章的最末尾需要我们来点击继续阅读才能爬取到所有的文字，不然我们只能获取到一部分的文字。这给我们的爬虫带来了一些困扰。因此，我们需要借助selenium这一个自动化工具来帮助我们的程序完成这一操作。

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

from bs4 import BeautifulSoup

import re

driver = webdriver.Chrome('D:/chromedriver.exe')

driver.get("https://wenku.baidu.com/view/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.html")

我们先通过驱动器来请求这个页面，

可以看到，已经请求成功这个页面了。接下来需要我们通过驱动来点击继续阅读来加载到这篇文章的所有文字。我们通过f12审查元素，看看

然后通过selenium的定位功能，定位到左边黄色区域所在的位置，调用驱动器进行点击

driver = webdriver.Chrome('D:/chromedriver.exe')

driver.get("https://wenku.baidu.com/view/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.html")

driver.find_element_by_xpath("//*[@id='html-reader-go-more']/div[2]/div[1]/p").click()

然后执行看看

黄字是报错的信息，显示的是有另外一个元素接受了点击的调用。可能是屏幕没有滑动到下方，直接点击被遮盖了。所以我们要通过驱动器先将浏览器滑动到底部，再点击继续阅读

from selenium import webdriver

from selenium.webdriver.common.keys import Keys

import time

from bs4 import BeautifulSoup

import re

driver = webdriver.Chrome('D:/chromedriver.exe')

driver.get("https://wenku.baidu.com/view/5b1ef2cfbf23482fb4daa58da0116c175e0e1e0a.html")

page=driver.find_element_by_xpath("//*[@id='html-reader-go-more']/div[2]/div[1]/p")

driver.execute_script('arguments[0].scrollIntoView();', page) #拖动到可见的元素去

page=driver.find_element_by_xpath("//*[@id='html-reader-go-more']/div[2]/div[1]/p").click()

先获取到继续阅读所在页面的位置，然后使用

driver.execute_script('arguments[0].scrollIntoView();', page) #拖动到可见的元素去方法将页面滚动到可以点击的位置

这样就获取到了整个完整页面，在使用beautifulsoup进行解析

html=driver.page_source

bf1 = BeautifulSoup(html, 'lxml')

result=bf1.find_all(class_='page-count')

num=BeautifulSoup(str(result),'lxml').span.string

count=eval(repr(num).replace('/', ''))

page_count=int(count)

for i in range(1,page_count+1):

    result=bf1.find_all(id="pageNo-%d"%(i))

    for each_result in result:

        bf2 = BeautifulSoup(str(each_result), 'lxml')

        texts = bf2.find_all('p')

        for each_text in texts:

            main_body = BeautifulSoup(str(each_text), 'lxml')

            s=main_body.get_text()

最后在写入txt文档

f=open("baiduwenku.txt","a",encoding="utf-8")

            f.write(s)

            f.flush()

            f.close()

python+selenium爬取百度文库不能下载的word文档的更多相关文章

python 利用selenium爬取百度文库的word文章
今天学习如何使用selenium库来爬取百度文库里面的收费的word文档 from selenium import webdriver from selenium.webdriver.common.k ...
python+requests爬取百度文库ppt
实验网站:https://wenku.baidu.com/view/c7752014f18583d04964594d.html 在下面这种类型文件中的请求头的url打开后会得到一个页面你会得到如下图 ...
python+selenium+bs4爬取百度文库内文字 && selenium 元素可以定位到，但是无法点击问题 && pycharm多行缩进、左移
先说一下可能用到的一些python知识一.python中使用的是unicode编码, 而日常文本使用各类编码如:gbk utf-8 等等所以使用python进行文字读写操作时候经常会出现各种错误, ...
Python+Selenium爬取动态加载页面（1）
注: 最近有一小任务,需要收集水质和水雨信息,找了两个网站:国家地表水水质自动监测实时数据发布系统和全国水雨情网.由于这两个网站的数据都是动态加载出来的,所以我用了Selenium来完成我的数据获取. ...
Python3实现QQ机器人自动爬取百度文库的搜索结果并发送给好友（主要是爬虫）
一.效果如下: 二.运行环境: win10系统:python3:PyCharm 三.QQ机器人用的是qqbot模块用pip安装命令是: pip install qqbot (前提需要有request ...
Python爬虫 - 爬取百度html代码前200行
Python爬虫 - 爬取百度html代码前200行 - 改进版, 增加了对字符串的.strip()处理源代码如下: # 改进版, 增加了 .strip()方法的使用 # coding=utf-8 ...
Python+Selenium爬取动态加载页面（2）
注: 上一篇<Python+Selenium爬取动态加载页面(1)>讲了基本地如何获取动态页面的数据,这里再讲一个稍微复杂一点的数据获取全国水雨情网.数据的获取过程跟人手动获取过程类似,所 ...
python 3 爬取百度图片
python 3 爬取百度图片学习了:https://blog.csdn.net/X_JS612/article/details/78149627
python爬虫-爬取百度图片
python爬虫-爬取百度图片(转) #!/usr/bin/python# coding=utf-8# 作者 :Y0010026# 创建时间 :2018/12/16 16:16# 文件 :spider ...

随机推荐

使用阿里云 ECS 快速部署 WordPress 博客系统
今天在阿里云 ECS上部署了一套 Lamp 系统,建了一个WordPress的网站,把操作过程记录下来,文中所列脚本可以直接应用. 废话不多说直接开动,ECS云服务购买可以点击阿里云ECS 云主 ...
React实现座位排布组件
React实现座位排布组件最近在开发一个影院系统的后台管理系统,该后台可以设置一个影厅的布局. 后台使用的是react框架,一位大神学长在几天之内就把这个控件研究出来了,并进行了较为严密的封装,佩服 ...
一个简单的spring boot程序
搭建一个spring boot项目十分的方便,网上也有许多,可以参考 https://www.cnblogs.com/ityouknow/p/5662753.html 进行项目的搭建.在此我就不详细介 ...
【转】安卓开发经验分享：资源、UI、函数库、测试、构建一个都不能少
本文由 ImportNew - 唐尤华翻译自 gigavoice.如需转载本文,请先参见文章末尾处的转载要求. 除了高超的武艺,每位黑忍者还需要装备最好的武器.在软件开发的世界里,好的工具能让我们的 ...
MySQL插入操作
说明:value的值可以为数据,DEFAULT,NULL,expr 含有ATUO_INCREMENT的列可以插入DEFAULT.NULL,或者不插入记录来实现自动增长. 插入记录的三种方法:①可以同时 ...
让vue-router渲染为指定的标签
<router-link :to="{name:'cart'}" tag="li"> cart </router-link> 在rout ...
TensorFlow——MNIST手写数据集
MNIST数据集介绍 MNIST数据集中包含了各种各样的手写数字图片,数据集的官网是:http://yann.lecun.com/exdb/mnist/index.html,我们可以从这里下载数据集. ...
Spring Boot2 系列教程 (八) | 配置日志
前言如题,今天介绍 springboot 默认日志的配置. 默认日志 Logback 默认情况下,Spring Boot 用 Logback 来记录日志,并用 INFO 级别输出到控制台.如果你在平 ...
图解kubernetes调度器抢占流程与算法设计
抢占调度是分布式调度中一种常见的设计,其核心目标是当不能为高优先级的任务分配资源的时候,会通过抢占低优先级的任务来进行高优先级的调度,本文主要学习k8s的抢占调度以及里面的一些有趣的算法 1. 抢占调 ...
numpy 读取数据
一.CSV文件 CSV: Comma-Separated Value,逗号分隔值文件显示:表格状态源文件:换行和逗号分隔,逗号列,换行行二.读取数据 1.方法 loadtxt(fname, ...

python+selenium爬取百度文库不能下载的word文档

python+selenium爬取百度文库不能下载的word文档的更多相关文章

随机推荐

热门专题