python 爬取qidian某一页全部小说

本文纯粹用于技术练习，请勿用作非法途径

 import re

 import urllib.request

 from bs4 import BeautifulSoup

 import time

 url=input("第一页网址：")

 def gethtml(url):

                                       #获取页面源代码html

     page=urllib.request.urlopen(url)

     html=page.read().decode('utf-8')  #html是一个列表

     soup=BeautifulSoup(html,'html.parser')

     return soup

 def getbookurl(soup):                   #获取该页所有书本的链接地址

     try:

         firsturl2=[]

         bookurl=soup.find_all("h4")

         bookurl1=re.findall(r'<h4><a data-bid=".*?" data-eid=".*?" href="(.*?)" target="_blank"',str(bookurl))

         #print(bookurl1)

         for i in range(0,len(bookurl1)):

             bookurl="http:"+bookurl1[i]

             soup1=gethtml(bookurl)          #获取每本书第一章 的url

             time.sleep(0.2)

             firsturl=soup1.find_all("a",{"class":"red-btn J-getJumpUrl "})

             firsturl1=re.findall(r'data-firstchapterjumpurl=".*?" href="(.*?)" id="readBtn">',str(firsturl))

             if firsturl1[0]=='':            #由于起点限制，某些链接无法爬取，显示的是一个空列表，这里要进行判断

                 continue

             firsturl2.append(firsturl1[0])

             print(firsturl2)

         return firsturl2

     except:

         return firsturl2

 def getcontent(soup,load):

     content=soup.find_all("div",{"class":"read-content j_readContent"})

     content1=re.compile(r'<p>([\s\S]*?)</p>')

     content2=content1.findall(str(content))

     content3=re.sub("</?\w+[^>]*>",'',content2[0])

     content4=content3.replace('。','。\n\n\0\0\0')  #到此，将章节内容获取完毕

     contentname=re.compile(r'<h3 class="j_chapterName">(.*?)</h3>')

     contentname1=contentname.findall(str(soup))     #获取章节名称

     book="----------------------------------------------------------------"+contentname1[0]+"------------------------------------------------------------\n\n\n"+content4   

     with open(load, 'a',encoding='gb18030') as f:       #这里的gb18030是GBK的父集，所以能兼容GBK不能编码的字符。

         f.write(book)

 def nextcontent(soup):

     content=soup.find_all("div",{"class":"chapter-control dib-wrap"})

     #print(str(content))

     step=re.compile(r'<a data-eid="qd_R109" href="(.*?)" id="j_chapterNext">')

     content1=step.findall(str(content))

     if content1 == []:

         step1=re.compile(r'<a data-eid="qd_R118" href="(.*?)" id="j_chapterNext">')

         content2=step1.findall(str(content))

         url="http:"+content2[0]

         return url

     else:

         url="http:"+content1[0]

         return url

 def panduan(soup):

     content=soup.find_all("div",{"class":"chapter-control dib-wrap"})

     #print(str(content))

     step=re.compile(r'<a data-eid="qd_R109" href="(.*?)" id="j_chapterNext">')

     content1=step.findall(str(content))

     return content1

     #-------------------------------------------------------------------------

     #-------------------------------------------------------------------------

 while 1==1:

     soup2=gethtml(url)

     firsturl2=getbookurl(soup2)

     for j in range(0,len(firsturl2)):

         url="http:"+firsturl2[j]

         soup1=gethtml("http:"+firsturl2[j])

         bookname=re.findall(r'<h1>(.*?)</h1>' ,str(soup1))

         load="d:/88/%s.txt" % bookname[0]

         i=0

         while 1==1:

             soup=gethtml(url)

             getcontent(soup,load)

             url=nextcontent(soup)

             content1=panduan(soup)

             i+=1

             print("第%d章下载完成" % i)

             if content1 == []:

                 break

             time.sleep(0.2)

         print("-------------第%d本书下载完成---------" % int(j+1))

结果图：

学习ing!!! 加油

python 爬取qidian某一页全部小说的更多相关文章

Python 爬取大众点评 50 页数据，最好吃的成都火锅竟是它！
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: 胡萝卜酱 PS:如有需要Python学习资料的小伙伴可以加点击下方链 ...
python爬取豆瓣电影第一页数据and使用with open() as读写文件
# _*_ coding : utf-8 _*_ # @Time : 2021/11/2 9:58 # @Author : 秋泊酱 # @File : 获取豆瓣电影第一页 # @Project : 爬 ...
【学习笔记】Python 3.6模拟输入并爬取百度前10页密切相关链接
[学习笔记]Python 3.6模拟输入并爬取百度前10页密切相关链接问题描述通过模拟网页,实现百度搜索关键词,然后获得网页中链接的文本,与准备的文本进行比较,如果有相似之处则代表相关链接. me ...
Python爬取豆瓣指定书籍的短评
Python爬取豆瓣指定书籍的短评 #!/usr/bin/python # coding=utf-8 import re import sys import time import random im ...
Python 爬取猫眼 top100 电影例子
一个Python 爬取猫眼top100的小栗子 import json import requests import re from multiprocessing import Pool #//进程 ...
萌新学习Python爬取B站弹幕+R语言分词demo说明
代码地址如下:http://www.demodashi.com/demo/11578.html 一.写在前面之前在简书首页看到了Python爬虫的介绍,于是就想着爬取B站弹幕并绘制词云,因此有了这样 ...
python 爬取王者荣耀高清壁纸
代码地址如下:http://www.demodashi.com/demo/13104.html 一.前言打过王者的童鞋一般都会喜欢里边设计出来的英雄吧,特别想把王者荣耀的英雄的高清图片当成电脑桌面 ...
python爬取博客圆首页文章链接+标题
新人一枚,初来乍到,请多关照来到博客园,不知道写点啥,那就去瞄一瞄大家都在干什么好了. 使用python 爬取博客园首页文章链接和标题. 首先当然是环境了,爬虫在window10系统下,python ...
爬虫实战(三) 用Python爬取拉勾网
目录 0.前言 1.初始化 2.爬取数据 3.保存数据 4.数据可视化 5.大功告成 0.前言最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就 ...

随机推荐

转：关于将Java编译过的.class文件打成jar可执行文件/JAR详解
原文链接:关于将Java编译过的.class文件打成jar可执行文件/JAR详解如何把 java 程序编译成 .exe 文件.通常回答只有两种,一种是制作一个可执行的 JAR 文件包,然后就可以像. ...
excel之导出
1.Maven依赖的jar包 <dependency> <groupId>org.apache.poi</groupId> <artifact ...
洛谷P1955 程序自动分析 [NOI2015] 并查集
正解:并查集+离散化解题报告: 传送门! 其实题目还挺水的,,,但我太傻逼了直接想挂了,,,所以感觉还是有个小坑点所以还是写个题解记录下我的傻逼QAQ 首先这题一看,就长得很像NOIp关押罪犯?然后 ...
RNN 网络
原文:http://yangguang2009.github.io/2016/12/18/deeplearning/recurrent-neural-networks-for-deep-learnin ...
zabbix准备：php安装
一.安装php依赖库 ftp://xmlsoft.org/libxml2/libxml2-2.9.3.tar.gz yum install python-devel -y cd /download/ ...
oracle按照指定列分组合计group by rollup()
group by rollup() 按分组合计 select grouping(status),status,owner,object_type,count(*) from dba_objects w ...
rm：删除目录和文件
[root@linux-node- sss]# rm soft.txt //删除文件 rm: remove regular empty file ‘soft.txt’? y [root@linux-n ...
linux 查看系统资源使用情况：vmstat
vmstat命令可以动态地查看系统资源的使用情况,如内存/交换分区/CPU的使用情况,通过使用该命令可以判断系统的瓶颈在哪里: [root@mysql ~]# vmstat procs ------- ...
mysql 初识sql语句
有了mysql这个数据库软件,就可以将程序员从对数据的管理中解脱出来,专注于对程序逻辑的编写 mysql服务端软件即mysqld帮我们管理好文件夹以及文件,前提是作为使用者的我们,需要下载mysql的 ...
【UNIX网络编程（三）】TCP客户/server程序演示样例
上一节给出了TCP网络编程的函数.这一节使用那些基本函数编写一个完毕的TCP客户/server程序演示样例. 该样例运行的过程例如以下: 1.客户从标准输入读入一行文本,并写给server. 2.se ...

python 爬取qidian某一页全部小说

python 爬取qidian某一页全部小说的更多相关文章

随机推荐

热门专题