python 爬虫系列02-小说

本爬虫为网络上的..

# # -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# import requests

# if __name__ == '__main__':

#     target = 'https://www.biqukan.com/1_1094/17967679.html'

#     req = requests.get(url=target)

#     html = req.text

#     bf = BeautifulSoup(html)

#     tests = bf.find_all('div', class_ = 'showtxt')

#     print(tests)

# -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# import requests

# if __name__ == "__main__":

#      target = 'http://www.biqukan.com/1_1094/5403177.html'

#      req = requests.get(url = target)

#      html = req.text

#      bf = BeautifulSoup(html)

#      texts = bf.find_all('div', class_ = 'showtxt')

#      print(texts[0].text.replace('\xa0'*8,'\n\n'))

# -*- coding:UTF-8 -*-

#

# -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# # import requests

# #

# # if __name__ == "__main__":

# #     server = 'http://www.biqukan.com/'

# #     target = 'http://www.biqukan.com/1_1094/'

# #     req = requests.get(url=target)

# #     html = req.text

# #     div_bf = BeautifulSoup(html)

# #     div = div_bf.find_all('div', class_='listmain')

# #     a_bf = BeautifulSoup(str(div[0]))

# #     a = a_bf.find_all('a')

# #     for each in a:

# #         print(each.string, server + each.get('href'))

# -*- coding:UTF-8 -*-

from bs4 import BeautifulSoup

import requests, sys

"""

类说明:下载《笔趣看》网小说《一念永恒》

Parameters:

    无

Returns:

    无

"""

class downloader(object):

    def __init__(self):

        self.server = 'http://www.biqukan.com/'

        self.target = 'http://www.biqukan.com/1_1094/'

        self.names = []  # 存放章节名

        self.urls = []  # 存放章节链接

        self.nums = 0  # 章节数

    """

    函数说明:获取下载链接

    Parameters:

        无

    Returns:

        无

    Modify:

        2017-09-13

    """

    def get_download_url(self):

        req = requests.get(url=self.target)

        html = req.text

        div_bf = BeautifulSoup(html)

        div = div_bf.find_all('div', class_='listmain')

        a_bf = BeautifulSoup(str(div[0]))

        a = a_bf.find_all('a')

        self.nums = len(a[15:])  # 剔除不必要的章节，并统计章节数

        for each in a[15:]:

            self.names.append(each.string)

            self.urls.append(self.server + each.get('href'))

    """

    函数说明:获取章节内容

    Parameters:

        target - 下载连接(string)

    Returns:

        texts - 章节内容(string)

    Modify:

        2017-09-13

    """

    def get_contents(self, target):

        req = requests.get(url=target)

        html = req.text

        bf = BeautifulSoup(html)

        texts = bf.find_all('div', class_='showtxt')

        texts = texts[0].text.replace('\xa0' * 8, '\n\n')

        return texts

    """

    函数说明:将爬取的文章内容写入文件

    Parameters:

        name - 章节名称(string)

        path - 当前路径下,小说保存名称(string)

        text - 章节内容(string)

    Returns:

        无

    Modify:

        2017-09-13

    """

    def writer(self, name, path, text):

        write_flag = True

        with open(path, 'a', encoding='utf-8') as f:

            f.write(name + '\n')

            f.writelines(text)

            f.write('\n\n')

if __name__ == "__main__":

    dl = downloader()

    dl.get_download_url()

    print('《一年永恒》开始下载：')

    for i in range(dl.nums):

        dl.writer(dl.names[i], '一念永恒.txt', dl.get_contents(dl.urls[i]))

        sys.stdout.write("  已下载:%.3f%%" % float(i / dl.nums) + '\r')

        sys.stdout.flush()

    print('《一年永恒》下载完成')

python 爬虫系列02-小说的更多相关文章

python 爬虫系列教程方法总结及推荐
爬虫,是我学习的比较多的,也是比较了解的.打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了. 爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来. 而访问页 ...
$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
Python爬虫系列 - 初探：爬取旅游评论
Python爬虫目前是基于requests包,下面是该包的文档,查一些资料还是比较方便. http://docs.python-requests.org/en/master/ POST发送内容格式爬 ...
python爬虫系列（2）—— requests和BeautifulSoup
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
python爬虫入门02：教你通过 Fiddler 进行手机抓包
哟~哟~哟~ hi起来 everybody 今天要说说怎么在我们的手机抓包通过 python爬虫入门01:教你在Chrome浏览器轻松抓包我们知道了 HTTP 的请求方式以及在 Chrome 中 ...
Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...
【数量技术宅 | Python爬虫系列分享】实时监控股市重大公告的Python爬虫
实时监控股市重大公告的Python爬虫小技巧精力有限的我们,如何更加有效率地监控信息? 很多时候特别是交易时,我们需要想办法监控一些信息,比如股市的公告.如果现有的软件没有办法实现我们的需求,那么就 ...
【Python 爬虫系列】从某网站下载小说《鬼吹灯》,正则解析html
import re import urllib.request import urllib.parse import urllib.error as err import time # 下载 seed ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
Python爬虫系列（三）：requests高级耍法
昨天,我们更多的讨论了request的基础API,让我们对它有了基础的认知.学会上一课程,我们已经能写点基本的爬虫了.但是还不够,因为,很多站点是需要登录的,在站点的各个请求之间,是需要保持回话状态的 ...

随机推荐

Java 并行和并发
并行:指两个或多个事件在同一时刻点进行. 并发:指两个或多个事件在同一时间段进行.
C#中特殊的string类型
string C#有string关键字,在翻 ...
DataTable与结构不同实体类之间的转换
在实际开发过程中,或者是第三方公司提供的数据表结构,与我们系统中的实体类字段不对应,遇到这样我们怎么处理呢?可能有人会说,在转换时创建一个实体对象,对表里的数据逐行遍历来实例化这个实体对象不就完了.的 ...
编写高质量代码改善C#程序的157个建议——建议29：区别LINQ查询中的IEnumerable<T>和IQueryable<T>
建议29:区别LINQ查询中的IEnumerable<T>和IQueryable<T> LINQ查询一共提供了两类扩展方法,在System.Linq命名空间下,有两个静态类:E ...
扫描工具——Meterpreter
Meterpreter是Metasploit框架中的一个杀手锏,通常作为利用漏洞后的攻击载荷所使用,攻击载荷在触发漏洞后能够返回给用户一个控制通道.当使用Armitage.MSFCLI或MSFCONS ...
MongoDB整理笔记の进程控制
查看活动进程 > db.currentOp(); > // 等同于: db.$cmd.sys.inprog.findOne() { inprog: [ { "opid" ...
java 七牛上传图片到服务器（采用的html5 压缩传输base64方式）
//html 页面如下<div class="form-group"> <label class="col-sm-2 control-label&quo ...
c#帮助类：发送邮件
private static string IsOpenSendMail = ConfigurationManager.AppSettings["IsOpenSendMail"]; ...
unix网络编程 str_cli epoll 非阻塞版本
unix网络编程 str_cli epoll 非阻塞版本 unix网络编程str_cli使用epoll实现讲了使用epoll配合阻塞io来实现str_cli,这个版本是配合非阻塞io. 可以看到采用非 ...
OOP1(定义基类和派生类)
面向对象程序设计基于三个基本概念:数据抽象,继承和动态绑定数据抽象是一种依赖于接口和实现分离的编程技术.继承和动态绑定对程序的编号有两方面的影响:一是我们可以更容易地定义与其它类相似但不完全相同的类 ...

python 爬虫系列02-小说

python 爬虫系列02-小说的更多相关文章

随机推荐

热门专题