爬取笔下wenxue小说

 import urllib.request

 from bs4 import BeautifulSoup

 import  re

 def gethtml(url):

     page=urllib.request.urlopen(url)

     html=page.read().decode('gbk')

     soup=BeautifulSoup(html,"html.parser")

     #print(soup)

     return soup

 def getcontent(soup,load):                            #获取章节内容以及章节名称

     content1=""

     content=re.findall(r'<div id="content"><div id="adright"></div>(.*?)</div>',str(soup))

     for i in range(0,len(content)):

         content1+=content[i]

     content2 = re.sub("</?\w+[^>]*>", "", content1)

     content3=content2.replace('。','。\n\n\0\0\0\0\0\0')

     #以上获取章节内容

     zjname = re.findall(r'<div id="title">(.*?)</div>', str(soup))

     #获取章节名称

     with open(load, 'a', encoding='utf-8') as f:

         f.write("\0\0\0\0\0\0-----------------------------------------------------------"+zjname[0]+"------------------------------------------------------\n\n"+content3)

 def book(soup):

     bookurl=re.findall(r'<td class="odd"><a href="(.*?)">',str(soup))      #get every book url

     for i in range(0,len(bookurl)):

         #找到“[点击阅读]按钮”的链接,以及书名

         print(bookurl[i])

         soup1=gethtml(bookurl[i])

         allcontent=re.findall(r'</a>\xa0\xa0\xa0\xa0<a href="(.*?)">',str(soup1))

         bookname=re.findall(r'<strong>(.*?)全集下载</strong>', str(soup1))

         soup2=gethtml(allcontent[0])

         #打开点击阅读的按钮链接，找到第一章的链接

         firsturl1 = re.findall(r'<dd><a href="(.*?)">.*?</a></dd>', str(soup2))

         headurl=bookurl[i][0:-4].replace("binfo","b")

         firsturl2=headurl+"/"+firsturl1[0]

         print(firsturl2)

         #打开链接，开始爬取内容,同时获取下一章内容，并判断是否到最后一章

         soup3=gethtml(firsturl2)

         k=0

         load="d:/77/%s.txt" % bookname[0]

         try:

             while True:

                 nexturl = re.findall(r'<li><a href="(.*?)">下一页', str(soup3))

                 getcontent(soup3,load)

                 soup3=gethtml(headurl+"/"+nexturl[0])

                 k+=1

                 print("第%d章下载完成" % int(k))

         except:

             print("-------------------第%d本书下载完成---------------" % int(i+1))

 url="http://www.bxwx9.org/modules/article/toplist.php?sort=dayvisit"

 soup=gethtml(url)

 load=book(soup)

保存到txt文件中

2017-05-28

22:58:35

爬取笔下wenxue小说的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python之如何爬取一篇小说的第一章内容
现在网上有很多小说网站,但其实,有一些小说网站是没有自己的资源的,那么这些资源是从哪里来的呢?当然是“偷取”别人的数据咯.现在的问题就是,该怎么去爬取别人的资源呢,这里便从简单的开始,爬取一篇小说的第 ...
如何用python爬虫从爬取一章小说到爬取全站小说
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http ...
爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据
为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息. 一.准备阶段明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍 ...
使用requests+BeautifulSoup爬取龙族V小说
这几天想看龙族最新版本,但是搜索半天发现没有网站提供下载, 我又只想下载后离线阅读(写代码已经很费眼睛了).无奈只有自己爬取了. 这里记录一下,以后想看时,直接运行脚本下载小说. 这里是从 ...
爬虫入门实例：利用requests库爬取笔趣小说网
w3cschool上的来练练手,爬取笔趣看小说http://www.biqukan.com/, 爬取<凡人修仙传仙界篇>的所有章节 1.利用requests访问目标网址,使用了get方法 ...
scrapy进阶（CrawlSpider爬虫__爬取整站小说）
# -*- coding: utf-8 -*- import scrapy,re from scrapy.linkextractors import LinkExtractor from scrapy ...
Python的scrapy之爬取6毛小说网的圣墟
闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己爬取一下小说内容并保存到本地圣墟第一章沙漠中的彼岸花 - 辰东 - 6毛小说网 http://www.6ma ...
使用scrapy爬取金庸小说目录和章节url
刚接触使用scrapy的时候,如果一开始就想实现特别复杂的配置,显然是不太现实的,用一些小的例子可以帮助自己理解各个模块. 今天的目标:爬取http://www.luoxia.com/shendiao ...

随机推荐

[qemu] qemu旧的net参数已经不再可用了，新的这样用。
老的命令: /root/BUILD_qemu/bin/qemu-system-x86_64 -enable-kvm \ -m 2G \ -cpu Nehalem -smp cores=,threads ...
那些年读过的书《Java并发编程实战》一、构建线程安全类和并发应用程序的基础
1.线程安全的本质和线程安全的定义 (1)线程安全的本质并发环境中,当多个线程同时操作对象状态时,如果没有统一的状态访问同步或者协同机制,不同的线程调度方式和不同的线程执行次序就会产生不同的不正确的 ...
tomcat停止和启动脚本
日常重启tomcat比较麻烦,所以写了2个脚本,在脚本后输入tomcat名称即可启动或重启tomcat #!/bin/sh TOMCAT_HOME=/usr/java/$1 if [ ! -n &q ...
关于linux下mysql安装和卸载
卸载:https://www.cnblogs.com/Lenbrother/articles/6203620.html 卸载Mysql 找到了这篇文章:http://zhangzifan.com/ce ...
android常用函数
package com.cqytjr.util; import java.io.File; import java.net.InetAddress; import java.net.NetworkIn ...
percona顶级项目（针对数据库）
percona顶级项目(针对数据库) 地址:https://github.com/Percona-Lab 1.mongodb_consistent_backupTool for getting con ...
通过Tesseract实现简单的OCR
Tesseract 简介 Tesseract 的 OCR 引擎最先由 HP 实验室于 1985 年开始研发,至 1995 年时已经成为 OCR 业内最准确的三款识别引擎之一.然而,HP 不久便决定放弃 ...
what's the 回撤
什么是“回撤”? “回撤”是个谓语,前面隐含了一个主语.一般来说,没有人说“亏损回撤”的,我们说的“回撤”,通常指“股价回撤”.“市值回撤”.“净值回撤”和“盈利回撤”. “股价回撤”是针对个股的,即 ...
Python3学习之路~2.8 文件操作实现简单的shell sed替换功能
程序:实现简单的shell sed替换功能 #实现简单的shell sed替换功能,保存为file_sed.py #打开命令行输入python file_sed.py 我 Alex,回车后会把文件中的 ...
多线程2.md
# 多线程 VS 多进程 - 程序:一堆代码以文本形式存入一个文档 - 进程: 程序运行的一个状态 - 包含地址空间.内存.数据栈等 - 每个进程由自己完全独立的运行环境,多进程共享数据是一个问题 ...

爬取笔下wenxue小说

爬取笔下wenxue小说的更多相关文章

随机推荐

热门专题