selenium-爬取小说

 1 import requests

 2 from bs4 import BeautifulSoup

 3 import sys

 4 from selenium import webdriver

 5 from selenium.webdriver.support.wait import WebDriverWait

 6 from selenium.webdriver.common.by import By

 7 from selenium.webdriver.support import expected_conditions as EC

 8 import time

 9

10 #  [sɪˈliniəm] 硒

11

12

13 browser = webdriver.Chrome()

14 wait = WebDriverWait(browser, 10)

15

16

17 def get_total_page():

18     url = 'https://www.xxbiquge.com/0_807/'

19     browser.get(url)

20     html = browser.page_source

21     soup = BeautifulSoup(html, 'lxml')

22     dd = soup.find_all('dd')

23     #  browser.close()

24     pages = len(dd)

25     return pages

26

27

28 def index_page(i):

29     """

30     加载出小说的每一章内容

31     :param i: 小说的第 i 章

32     """

33     if i == 1:

34         # 小说第一章的 Url 地址

35         url = "https://www.xxbiquge.com/0_807/4055527.html"

36         browser.get(url)

37     # 等待 Content 节点加载出来

38     wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#content')))

39     # 调用 get_info() 方法对页面进行解析

40     get_info()

41     # 寻找下一章点击的节点

42     next_p = browser.find_elements(By.XPATH, ('//div[@class="bottem2"]/a'))[

43         2]  # //*[@id="wrapper"]/div[4]/div/div[6]/a[3]

44     # 找到后停顿 30 秒

45     time.sleep(1)

46     # 点击按钮

47     next_p.click()

48

49

50 def main():

51     """

52     遍历小说全部章节

53     :return:

54     """

55     total_page = get_total_page()

56     print(total_page)

57     for i in range(1, total_page + 1):

58         index_page(i)

59

60

61 def get_info():

62     """

63     提取每一章小说的章章节名及正文

64     #wrapper > div.content_read > div > div.bookname > h1

65     :return:

66     """

67     # 找到章节的名字

68     name = browser.find_element_by_css_selector('#wrapper > div.content_read > div > div.bookname > h1').text

69     print(name)

70     # 找到小说正文

71     content = browser.find_element_by_id('content').text

72     print(content)

73     # 将拿到的小说名和对应的正文内容写入 txt 文件中

74     with open('雪中悍刀行.txt', 'a', encoding="utf-8") as f:

75         # '\n'.join([name, content]) 转化为字符串

76         f.write('\n'.join([name, content]))

77         # 换两行

78         f.write('\n\n')

79

80

81 if __name__ == '__main__':

82     main()

selenium-爬取小说的更多相关文章

Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
[Python爬虫] Selenium爬取新浪微博客户端用户信息、热点话题及评论 (上)
转载自:http://blog.csdn.net/eastmount/article/details/51231852 一. 文章介绍源码下载地址:http://download.csdn.net/ ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
selenium爬取煎蛋网
selenium爬取煎蛋网直接上代码 from selenium import webdriver from selenium.webdriver.support.ui import WebDriv ...
利用selenium爬取京东商品信息存放到mongodb
利用selenium爬取京东商城的商品信息思路: 1.首先进入京东的搜索页面,分析搜索页面信息可以得到路由结构 2.根据页面信息可以看到京东在搜索页面使用了懒加载,所以为了解决这个问题,使用递归.等待 ...
利用Selenium爬取淘宝商品信息
一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样.由于这个性质,Selenium也是一 ...
Scrapy 框架使用 selenium 爬取动态加载内容
使用 selenium 爬取动态加载内容开启中间件 DOWNLOADER_MIDDLEWARES = { 'wangyiPro.middlewares.WangyiproDownloaderMidd ...
使用selenium爬取网站动态数据
处理页面动态加载的爬取 selenium selenium是python的一个第三方库,可以实现让浏览器完成自动化的操作,比如说点击按钮拖动滚轮等环境搭建: 安装:pip install selen ...
scrapy框架 + selenium 爬取豆瓣电影top250......
废话不说,直接上代码..... 目录结构 items.py import scrapy class DoubanCrawlerItem(scrapy.Item): # 电影名称 movieName = ...
爬虫学习06用selenium爬取空间
用selenium爬取空间 from selenium import webdriver from lxml import etree import time pro = webdriver.Chro ...

随机推荐

Typeof() 和 GetType()区别
1.typeof(x)中的x,必须是具体的类名.类型名称等,不可以是变量名称. 2.GetType()方法继承自Object,所以C#中任何对象都具有GetType()方法,它的作用和typeof() ...
iOS 定义多个参数函数的写法
多个参数的写法 (方法的数据类型)函数名:(参数1数据类型)参数1的数值的名字参数2的名字: (参数2数据类型) 参数2值的名字 …. ; 如 : 有三个参数 -(void)getdetailI ...
easyui的combobox默认选中第一个选项
pmProjectSelect.combobox({ editable:false, width:165, url : ctx + '/PmProject/findByProjectMgr', //c ...
ORACLE_笔记_练习题目
一.plsql用法网址及时复习 extract()函数----用于截取年.月.日.时.分.秒 https://www.cnblogs.com/xqzt/p/4477239.html case when ...
利用python3 爬取网易云上周杰伦所有专辑，歌曲，评论，并完成可视化分析已经歌曲情绪化分析
这篇文章适合于python爱好者,里面可能很多语句是冗长的,甚至可能有一些尚未发现的BUG,这个伴随着我们继续学习来慢慢消解吧.接下来我把里面会用到的东西在这里做一个简单总结吧:本文用到了两门解释性 ...
3. Dictionaries and Sets
1. Generic Mapping Types The collections.abc module provides the Mapping and MutableMapping ABCs to ...
在idea中相同的字符串使用equals()进行比较时，返回值是flase问题
最近在idea中遇到了一个编码的问题,我的程序是从前台传过来一个字符串,判断用户的角色(学生,教师,管理员), 在进行equals()判断时,返回的确是false,然后就在网上查了查,发现是编码的问题 ...
IP段的正则表达式
IPv4 prefix格式:比如: 192.168.1.0/24 ^(?=(\b|\D))(((\d{1,2})|(1\d{1,2})|(2[0-4]\d)|(25[0-5]))\.){3}((\d{ ...
HashSet怎样保证元素不重复
文章同步更新在个人博客:HashSet怎样保证元素不重复都知道HashSet中不能存放重复元素,有时候可以用来做去重操作等.但是其内部是怎么保证元素不重复的呢?下面从源码去看看. 打开HashSet ...
FFmpeg常用命令学习笔记（四）处理原始数据命令
处理原始数据命令通过音视频设备采集的.没有经过任何加工的数据叫原始数据,而像我们平时播放的比如mp4文件是压缩后的数据.视频原始数据是YUV格式,音频原始数据是PCM格式.FFmpeg可以从封装格 ...

selenium-爬取小说

selenium-爬取小说

selenium-爬取小说的更多相关文章

随机推荐

热门专题