python 爬虫系列02-小说

本爬虫为网络上的..

# # -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# import requests

# if __name__ == '__main__':

#     target = 'https://www.biqukan.com/1_1094/17967679.html'

#     req = requests.get(url=target)

#     html = req.text

#     bf = BeautifulSoup(html)

#     tests = bf.find_all('div', class_ = 'showtxt')

#     print(tests)

# -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# import requests

# if __name__ == "__main__":

#      target = 'http://www.biqukan.com/1_1094/5403177.html'

#      req = requests.get(url = target)

#      html = req.text

#      bf = BeautifulSoup(html)

#      texts = bf.find_all('div', class_ = 'showtxt')

#      print(texts[0].text.replace('\xa0'*8,'\n\n'))

# -*- coding:UTF-8 -*-

#

# -*- coding:UTF-8 -*-

# from bs4 import BeautifulSoup

# # import requests

# #

# # if __name__ == "__main__":

# #     server = 'http://www.biqukan.com/'

# #     target = 'http://www.biqukan.com/1_1094/'

# #     req = requests.get(url=target)

# #     html = req.text

# #     div_bf = BeautifulSoup(html)

# #     div = div_bf.find_all('div', class_='listmain')

# #     a_bf = BeautifulSoup(str(div[0]))

# #     a = a_bf.find_all('a')

# #     for each in a:

# #         print(each.string, server + each.get('href'))

# -*- coding:UTF-8 -*-

from bs4 import BeautifulSoup

import requests, sys

"""

类说明:下载《笔趣看》网小说《一念永恒》

Parameters:

    无

Returns:

    无

"""

class downloader(object):

    def __init__(self):

        self.server = 'http://www.biqukan.com/'

        self.target = 'http://www.biqukan.com/1_1094/'

        self.names = []  # 存放章节名

        self.urls = []  # 存放章节链接

        self.nums = 0  # 章节数

    """

    函数说明:获取下载链接

    Parameters:

        无

    Returns:

        无

    Modify:

        2017-09-13

    """

    def get_download_url(self):

        req = requests.get(url=self.target)

        html = req.text

        div_bf = BeautifulSoup(html)

        div = div_bf.find_all('div', class_='listmain')

        a_bf = BeautifulSoup(str(div[0]))

        a = a_bf.find_all('a')

        self.nums = len(a[15:])  # 剔除不必要的章节，并统计章节数

        for each in a[15:]:

            self.names.append(each.string)

            self.urls.append(self.server + each.get('href'))

    """

    函数说明:获取章节内容

    Parameters:

        target - 下载连接(string)

    Returns:

        texts - 章节内容(string)

    Modify:

        2017-09-13

    """

    def get_contents(self, target):

        req = requests.get(url=target)

        html = req.text

        bf = BeautifulSoup(html)

        texts = bf.find_all('div', class_='showtxt')

        texts = texts[0].text.replace('\xa0' * 8, '\n\n')

        return texts

    """

    函数说明:将爬取的文章内容写入文件

    Parameters:

        name - 章节名称(string)

        path - 当前路径下,小说保存名称(string)

        text - 章节内容(string)

    Returns:

        无

    Modify:

        2017-09-13

    """

    def writer(self, name, path, text):

        write_flag = True

        with open(path, 'a', encoding='utf-8') as f:

            f.write(name + '\n')

            f.writelines(text)

            f.write('\n\n')

if __name__ == "__main__":

    dl = downloader()

    dl.get_download_url()

    print('《一年永恒》开始下载：')

    for i in range(dl.nums):

        dl.writer(dl.names[i], '一念永恒.txt', dl.get_contents(dl.urls[i]))

        sys.stdout.write("  已下载:%.3f%%" % float(i / dl.nums) + '\r')

        sys.stdout.flush()

    print('《一年永恒》下载完成')

python 爬虫系列02-小说的更多相关文章

python 爬虫系列教程方法总结及推荐
爬虫,是我学习的比较多的,也是比较了解的.打算写一个系列教程,网上搜罗一下,感觉别人写的已经很好了,我没必要重复造轮子了. 爬虫不过就是访问一个页面然后用一些匹配方式把自己需要的东西摘出来. 而访问页 ...
$python爬虫系列（2）—— requests和BeautifulSoup库的基本用法
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
Python爬虫系列 - 初探：爬取旅游评论
Python爬虫目前是基于requests包,下面是该包的文档,查一些资料还是比较方便. http://docs.python-requests.org/en/master/ POST发送内容格式爬 ...
python爬虫系列（2）—— requests和BeautifulSoup
本文主要介绍python爬虫的两大利器:requests和BeautifulSoup库的基本用法. 1. 安装requests和BeautifulSoup库可以通过3种方式安装: easy_inst ...
python爬虫入门02：教你通过 Fiddler 进行手机抓包
哟~哟~哟~ hi起来 everybody 今天要说说怎么在我们的手机抓包通过 python爬虫入门01:教你在Chrome浏览器轻松抓包我们知道了 HTTP 的请求方式以及在 Chrome 中 ...
Python爬虫系列（七）：提高解析效率
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文 ...
【数量技术宅 | Python爬虫系列分享】实时监控股市重大公告的Python爬虫
实时监控股市重大公告的Python爬虫小技巧精力有限的我们,如何更加有效率地监控信息? 很多时候特别是交易时,我们需要想办法监控一些信息,比如股市的公告.如果现有的软件没有办法实现我们的需求,那么就 ...
【Python 爬虫系列】从某网站下载小说《鬼吹灯》,正则解析html
import re import urllib.request import urllib.parse import urllib.error as err import time # 下载 seed ...
python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
Python爬虫系列（三）：requests高级耍法
昨天,我们更多的讨论了request的基础API,让我们对它有了基础的认知.学会上一课程,我们已经能写点基本的爬虫了.但是还不够,因为,很多站点是需要登录的,在站点的各个请求之间,是需要保持回话状态的 ...

随机推荐

编写高质量代码改善C#程序的157个建议——建议9：习惯重载运算符
建议9: 习惯重载运算符在开发过程中,应该习惯于使用微软提供给我们的语法特性.我想每个人都喜欢看到这样的语法特性: ; ; int total = x + y; 而不是用下面的语法来完成一样的事情: ...
SQL之DCL
DCL(Data Control Language)数据库控制语言授权,角色控制等GRANT 授权REVOKE 取消授权 1)授权命令 grant,语法格式(SQL语句不区分大小写):Grant ...
.net Reflection（反射）- 二
反射 Reflection 中访问方法新建一个ClassLibrary类库: public class Student { public string Name { get; set; } publ ...
C# 微信openid 用户信息
前段demo index.html <!DOCTYPE html> <html> <head> <meta charset="utf-8" ...
vs2015 使用 Eazfuscator.NET 3.3
出现问题: Unable to cast object System.Xml.XmlComment’ to type ‘System.Xml.XmlElement’ 解决办法: 打开 *.csproj ...
《C#多线程编程实战》2.10 SpinWait
emmm 这个SpinWait 中文是自旋等待的意思. 所谓自旋,就是自己追自己影子,周伯通的左右手互博,不好听就是放屁自己追着玩,小狗转圈咬自己的尾巴 SpinWait是一个结构体,并不是一个类. ...
跳转iPhone设置页面，绕过审核
1.问题描述跳转iPhone设置页面之前都是通过 App-Prefs:root=WIFI 来跳转,但是2018年6月废弃了这个函数,被认为是私有函数,审核会被拒绝. 有心人采用了字符串转码的方式来规 ...
mysql设计-优化
mysql表复制 1.复制表结构 create table student like user; 2.复制表内容 insert into t3 select * from t1; mysql索引 1. ...
我的csdn博客地址
呆雁持续的谦虚与努力 http://blog.csdn.net/u013539183

python 爬虫系列02-小说

python 爬虫系列02-小说的更多相关文章

随机推荐

热门专题