python3 爬虫继续爬笔趣阁 ,,,,,,,

学如逆水行舟,不进则退

今天想看小说..找了半天,没有资源..

只能自己爬了

想了半天.,,,忘记了这个古老的技能

捡了一下

import requests

from bs4 import BeautifulSoup

cookies = {

    'bcolor': 'null',

    'font': 'null',

    'size': 'null',

    'color': 'null',

    'width': 'null',

    'clickbids': '',

    'Hm_lvt_30876ba2abc5f5253467ef639ca0ad48': '1571030311,1571030949,1571031218',

    'Hm_lpvt_30876ba2abc5f5253467ef639ca0ad48': '',

}

headers = {

    'Connection': 'keep-alive',

    'Cache-Control': 'max-age=0',

    'Upgrade-Insecure-Requests': '',

    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',

    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

    'Accept-Encoding': 'gzip, deflate',

    'Accept-Language': 'zh-CN,zh;q=0.9',

}

response = requests.get('http://www.biquku.la/18/18836/', headers=headers, cookies=cookies)

# print(response.text)

class downloder(object):

    def __init__(self):

        self.server = 'http://www.biqukan.com'

        self.target = 'http://www.biqukan.com/1_1094/'

        self.names = []  #存放章节名字

        self.urls = [] #存放章节链接

        self.nums =  # 章节数量

    def get_download_url(self):

        req = requests.get('http://www.biquku.la/18/18836/', headers=headers, cookies=cookies)

        html = req.text

        # print(html)

        div_bf = BeautifulSoup(html)

        div = div_bf.find_all('div',id='list')

        a_bf = BeautifulSoup(str(div[]))

        a = a_bf.find_all('a')

        for each in a:

            self.names.append(each.string)

            self.urls.append('http://www.biquku.la/18/18836/'+each.get('href'))

        self.nums = len(a)

    def writer(self, name, path, text):

        write_flag = True

        with open(path, 'a', encoding='utf-8') as f:

            f.write(name + '\n')

            f.writelines(text)

            f.writelines('\n\n')

    def get_contents(self, target):

        req = requests.get(url=target)

        html = req.content

        # print('html',html)

        bf = BeautifulSoup(html)

        texts = bf.find_all('div', id='content')

        texts=str(texts[]).replace('<br/>','\n')

        # print('texts',texts)

        # texts = texts[].text.replace('&nbsp', '\n\n')

        # texts = texts[].text.replace('<br/>', '\n\n')

        # texts = texts[].text.replace('<br/>', '\n\n')

        # texts = texts[].text.replace('<br>', '\n\n')

        return texts

if __name__ == '__main__':

    dl = downloder()

    dl.get_download_url()

    # print(dl.urls)

    print(dl.nums)

    print('开始下载')

    for i in range(dl.nums):

        dl.writer(dl.names[i], '用点.txt', dl.get_contents(dl.urls[i]))

        print('第'+str(i)+'章下载完')

    print("下载完成")

不是什么难的东西....

不懂得留言

python3 爬虫继续爬笔趣阁 ,,,,,,,的更多相关文章

一个php的爬虫，将笔趣阁的书可以都下载下来。
数据库:book 表id ---- 数据库: `book`-- -- -------------------------------------------------------- ---- 表的结 ...
Jsoup-基于Java实现网络爬虫-爬取笔趣阁小说
注意!仅供学习交流使用,请勿用在歪门邪道的地方!技术只是工具!关键在于用途! 今天接触了一款有意思的框架,作用是网络爬虫,他可以像操作JS一样对网页内容进行提取初体验Jsoup <!-- Ma ...
scrapy框架爬取笔趣阁
笔趣阁是很好爬的网站了,这里简单爬取了全部小说链接和每本的全部章节链接,还想爬取章节内容在biquge.py里在加一个爬取循环,在pipelines.py添加保存函数即可 1 创建一个scrapy项目 ...
python入门学习之Python爬取最新笔趣阁小说
Python爬取新笔趣阁小说,并保存到TXT文件中我写的这篇文章,是利用Python爬取小说编写的程序,这是我学习Python爬虫当中自己独立写的第一个程序,中途也遇到了一些困难,但是最后 ...
bs4爬取笔趣阁小说
参考链接:https://www.cnblogs.com/wt714/p/11963497.html 模块:requests,bs4,queue,sys,time 步骤:给出URL--> 访问U ...
免app下载笔趣阁小说
第一次更新:发现一个问题,就是有时候网页排版有问题的话容易下载到多余章节,如下图所示: 网站抽风多了一个正文一栏,这样的话就会重复下载1603--1703章节. 解决办法: 于是在写入内容前加了一个章 ...
【Python3爬虫】爬取美女图新姿势--Redis分布式爬虫初体验
一.写在前面之前写的爬虫都是单机爬虫,还没有尝试过分布式爬虫,这次就是一个分布式爬虫的初体验.所谓分布式爬虫,就是要用多台电脑同时爬取数据,相比于单机爬虫,分布式爬虫的爬取速度更快,也能更好地应对I ...
python应用：爬虫框架Scrapy系统学习第四篇——scrapy爬取笔趣阁小说
使用cmd创建一个scrapy项目: scrapy startproject project_name (project_name 必须以字母开头,只能包含字母.数字以及下划线<undersco ...
Python爬取笔趣阁小说，有趣又实用
上班想摸鱼?为了摸鱼方便,今天自己写了个爬取笔阁小说的程序.好吧,其实就是找个目的学习python,分享一下. 1. 首先导入相关的模块 import os import requests from ...

随机推荐

DIV中的文字垂直并且水平居中的CSS
.MsgPopup { height: 100px; line-height: 100px; text-align: center;}
mysql优化 ON DUPLICATE KEY UPDATE
场景:比如,有一张表,专门记录业务里的唯一数据记录,这张表里如果存在此唯一数据的记录就更新此行数据的某个字段,如果此唯一数据不存在,那么就添加一条最新数据. 一贯操作:如果不知道mysql有 ON D ...
PS利用蒙版抠图
扣图除了用锁套工具外,用蒙版时一个比较快的方法. 前期准备首先准备一个PS CS6和一个神仙姐姐,一定要先Ctrl+J复制一份图层(不然待会神仙姐姐就找不到了). 使用色阶及反相获取轮廓使用色阶使 ...
nodeJS微信JSDK 配置
nodeJS微信JSDK 配置一.微信公众平台申请一个测试公众号二.配置nodeJS 使用express框架搭建服务器微信生成签名步骤: 1.获取token 2.通过token,获取jsapi_ ...
provide inject应用及和props对比
之前本人写过几篇element ui源码解析,其中提到provide/inject,当时只是匆匆带过,没有做深入研究,直到后来一次开发,需要实现孙组件更改父组件的值才想起来,原来这一对属性有如此大的用 ...
FFmpeg－－如何同步音视频的解决方案
如何同步视频 PTS和DTS 幸运的是,音频和视频流都有一些关于以多快速度和什么时间来播放它们的信息在里面.音频流有采样,视频流有每秒的帧率.然而,如果我们只是简单的通过数帧和乘以帧率的方式来同步视频 ...
介绍一个免费的云开发工具：Cloud Shell
上周和一德国同事吹牛的时候,他说最近业余时间在玩一个东东,叫做Cloud Shell,Google出品.Jerry之前听说过国内的阿里云也提供过类似的解决方案,即在云端提供一个受限制的Linux环境并 ...
源码解析-url状态检测神器ping-url
前言 ping-url是我最近开源的一个小工具,这篇文章也是专门写它设计理念的科普文. 为什么会做这个ping-url开源工具呢? 起因是:本小哥在某天接到一个特殊的需求,要用前端的方式判断任意一个u ...
jmeter的简单使用0723
一.添加http请求 1.右击线程组---添加---取样器---http请求,具体内容如下图所示.如果请求带参数,则要点击下方的添加按钮来添加参数 2.查看请求结果,同样右击线程组-添加---监听器- ...
Andrew Ng机器学习一： Linear Regression
一:单变量线性回归(Linear regression with one variable) 背景:在某城市开办饭馆,我们有这样的数据集ex1data1.txt,第一列代表某个城市的人口,第二列代表在 ...

python3 爬虫继续爬笔趣阁 ,,,,,,,

python3 爬虫继续爬笔趣阁 ,,,,,,,的更多相关文章

随机推荐

热门专题