python爬虫-《笔趣看》网小说《悟空看私聊》

小编是个爱看小说的人，哈哈

# -*- coding:UTF-8 -*-

'''

类说明:下载《笔趣看》网小说《悟空看私聊》

'''

from bs4 import BeautifulSoup

import requests,urllib3, sys

urllib3.disable_warnings()

class downloader(object):

    def __init__(self):

        self.server = 'http://www.biqukan.com/'

        self.target = 'http://www.biqukan.com/37_37039/'

        self.names = []            #存放章节名

        self.urls = []            #存放章节链接

        self.nums = 0            #章节数

    """

    函数说明:获取下载链接

    """

    def get_download_url(self):

        req = requests.get(url = self.target)

        html = req.text

        div_bf = BeautifulSoup(html, "html.parser")

        div = div_bf.find_all('div', class_ = 'listmain')

        a_bf = BeautifulSoup(str(div[0]))

        a = a_bf.find_all('a')

        self.nums = len(a[12:])                                #剔除不必要的章节，并统计章节数

        for each in a[12:]:

            self.names.append(each.string)

            self.urls.append(self.server + each.get('href'))

        print(self.names)

        print(self.urls)

    """

    函数说明:获取章节内容

        target - 下载连接(string)

        texts - 章节内容(string)

    """

    def get_contents(self, target):

        req = requests.get(url = target)

        aa = req.content

        bf = BeautifulSoup(aa,"html.parser")

        texts = bf.find_all('div', id = 'content')

        a = texts[0].text.replace('\xa0'*8,'\n\n')

        print(a)

        return a

    """

    函数说明:将爬取的文章内容写入文件

        name - 章节名称(string)

        path - 当前路径下,小说保存名称(string)

        text - 章节内容(string)

    """

    def writer(self, name, path, text):

        write_flag = True

        with open(path, 'a', encoding='utf-8') as f:

            f.write(name + '\n')

            f.writelines(text)

            f.write('\n\n')

if __name__ == "__main__":

    dl = downloader()

    dl.get_download_url()

    print('《悟空看私聊》开始下载：')

    for i in range(dl.nums):

        dl.writer(dl.names[i], 'D://悟空看私聊.txt', dl.get_contents(dl.urls[i]))

        sys.stdout.write("  已下载:%.5f%%" %  float(i/dl.nums*100) + '\r')

        sys.stdout.flush()

    print('《悟空看私聊》下载完成')

python爬虫-《笔趣看》网小说《悟空看私聊》的更多相关文章

Python爬虫爬取全书网小说，程序源码+程序详细分析
Python爬虫爬取全书网小说教程第一步:打开谷歌浏览器,搜索全书网,然后再点击你想下载的小说,进入图一页面后点击F12选择Network,如果没有内容按F5刷新一下点击Network之后出现如下 ...
python爬虫:爬取慕课网视频
前段时间安装了一个慕课网app,发现不用注册就可以在线看其中的视频,就有了想爬取其中的视频,用来在电脑上学习.决定花两天时间用学了一段时间的python做一做.(我的新书<Python爬虫开发与 ...
Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储
Python爬虫可以说是好玩又好用了.现想利用Python爬取网页股票数据保存到本地csv数据文件中,同时想把股票数据保存到MySQL数据库中.需求有了,剩下的就是实现了. 在开始之前,保证已经安装好 ...
Python 爬虫爬校花网！！
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本 1.福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易不会受到打击,第二呢你懂得... 1.第一步,需要下载 ...
Python爬虫入门教程 21-100 网易云课堂课程数据抓取
写在前面今天咱们抓取一下网易云课堂的课程数据,这个网站的数据量并不是很大,我们只需要使用requests就可以快速的抓取到这部分数据了. 你第一步要做的是打开全部课程的地址,找出爬虫规律, 地址如下 ...
Python爬虫爬取百合网的女人们和男人们
学Python也有段时间了,目前学到了Python的类.个人感觉Python的类不应称之为类,而应称之为数据类型,只是数据类型而已!只是数据类型而已!只是数据类型而已!重要的事情说三篇. 据书上说一个 ...
Python 爬虫: 抓取花瓣网图片
接触Python也好长时间了,一直没什么机会使用,没有机会那就自己创造机会!呐,就先从爬虫开始吧,抓点美女图片下来. 废话不多说了,讲讲我是怎么做的. 1. 分析网站想要下载图片,只要知道图片的地址 ...
项目: python爬虫福利煎蛋网妹子图
嘿嘿嘿! 嘿嘿嘿! 福利一波, 之前看小甲鱼的python教学视频的时候, 看到上面教的爬虫, 爬美女图片的, 心很痒痒, 但是不知道为啥, 按照视频一个字一个字敲的代码,总是报错, 有一天花了一下 ...
python爬虫06取当当网 Top 500 本五星好评书籍
主要思路使用 page 变量来实现翻页我们使用 requests 请求当当网然后将返回的 HTML 进行正则解析由于我们暂时还没学到数据库所以解析完之后就把内容存到文件中 def main( ...
python爬虫爬取赶集网数据
一.创建项目 scrapy startproject putu 二.创建spider文件 scrapy genspider patubole patubole.com 三.利用chrome浏览器 ...

随机推荐

通过三层交换机实现不同VLAN间的通信
主机的IP地址以及子网掩码已列出,下面将讲解如何配置利用三层交换机来实现不同VLAN间的相互通信 SW1的命令: en //进入特权模式 conf t //全局模式 vlan 10 // ...
epoch，iteration与batchsize的区别
神经网络中epoch与iteration是不相等的 batchsize:中文翻译为批大小(批尺寸).在深度学习中,一般采用SGD训练,即每次训练在训练集中取batchsize个样本训练: iterat ...
「HNOI2016」序列
传送门 Description 有 \(q\) 个询问,每个询问给定两个数\(l\) 和\(r\),求 \(a[l:r]\) 的不同子序列的最小值之和 Solution 校内模拟赛用了这道题,但是莫 ...
SpringDataRedis的简单案例使用
一.SpringDataRedis环境搭建第一步.导入坐标  <dependency> <groupId>redis.clients< ...
Java 12 骚操作， switch居然还能这样玩！
Java 13 都快要来了,12必须跟栈长学起! Java 13 即将发布,新特性必须抢先看! Java 12 中对 switch 的语法更友好了,建议大家看下栈长在Java技术栈微信公众号分享的&l ...
块元素&行内元素
大多数HTML 元素被定义为块级元素或内联元素.块级元素在浏览器显示时,通常会以新行来开始(和结束) block元素特点 1 总是在新行上开始: 2 高度,行高以及外边距和内边距都可控制: 3 宽度缺 ...
剑指offer：孩子们的游戏（圆圈中最后剩下的数）
题目描述: 每年六一儿童节,牛客都会准备一些小礼物去看望孤儿院的小朋友,今年亦是如此.HF作为牛客的资深元老,自然也准备了一些小游戏.其中,有个游戏是这样的:首先,让小朋友们围成一个大圈.然后,他随机 ...
针对nginx，来具体聊聊正向代理与反向代理（转载）
https://www.sohu.com/a/235704408_468627 先来说说什么是代理服务器? 所谓代理服务器就是位于发起请求的客户端与原始服务器端之间的一台跳板服务器,正向代理可以隐藏客 ...
php常用命令
--------------------------------------------------------------- 重启phpservice php-fpm restart ------- ...
iptables实现端口映射（本地和远程端口映射）
说明:需要将外网访问本地IP(192.168.75.5)的80端口转换为访问192.168.75.3的8000端口,这就需要用到iptables的端口映射实现:1. 需要先开启linux的数据转发功 ...

python爬虫-《笔趣看》网小说《悟空看私聊》

python爬虫-《笔趣看》网小说《悟空看私聊》的更多相关文章

随机推荐

热门专题