前言

文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取http://t.cn/A6Zvjdun

很多好看的小说只能看不能下载，教你怎么爬取一个网站的所有小说

知识点：

requests
xpath
全站小说爬取思路

开发环境：

版本：anaconda5.2.0（python3.6.5）
编辑器：pycharm

第三方库：

requests
parsel

进行网页分析

目标站点:

开发者工具的使用networkelement

爬取一章小说

requests库的使用（请求网页数据）
对请求网页数据步骤进行封装
css选择器的使用（解析网页数据）
操作文件（数据持久化）

# -*- coding: utf-8 -*-

import requests

import parsel

"""爬取一章小说"""

# 请求网页数据

headers = {

 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'

}

response = requests.get('http://www.shuquge.com/txt/8659/2324752.html', headers=headers)

response.encoding = response.apparent_encoding

html = response.text

print(html)

# 从网页中提取内容

sel = parsel.Selector(html)

title = sel.css('.content h1::text').extract_first()

contents = sel.css('#content::text').extract()

contents2 = []

for content in contents:

 contents2.append(content.strip())

print(contents)

print(contents2)

print("\n".join(contents2))

# 将内容写入文本

with open(title+'.txt', mode='w', encoding='utf-8') as f:

 f.write("\n".join(contents2))

爬取一本小说

对爬虫进行重构需要爬取很多章小说，最笨的方法是直接使用 for 循环。
爬取索引页需要爬取所有的章节，只要获取每一章的网址就行了。

import requests

import parsel

"""获取网页源代码"""

# 模拟浏览器发送请求

headers = {

 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36'

}

def download_one_chapter(target_url):

 # 需要请求的网址

 # target_url = 'http://www.shuquge.com/txt/8659/2324753.html'

 # response 服务返回的内容 对象

 # pycharm ctrl+鼠标左键

 response = requests.get(target_url, headers=headers)

 # 解码 万能解码

 response.encoding = response.apparent_encoding

 # 文字方法 获取网页文字内容

 # print(response.text)

 # 字符串

 html = response.text

 """从网页源代码里面拿到信息"""

 # 使用parsel 把字符串变成对象

 sel = parsel.Selector(html)

 # scrapy

 # extract 提取标签的内容

 # 伪类选择器（选择属性） css选择器（选择标签）

 # 提取第一个内容

 title = sel.css('.content h1::text').extract_first()

 # 提取所有的内容

 contents = sel.css('#content::text').extract()

 print(title)

 print(contents)

 """ 数据清除 清除空白字符串 """

 # contents1 = []

 # for content in contents:

 # # 去除两端空白字符

 # # 字符串的操作 列表的操作

 # contents1.append(content.strip())

 #

 # print(contents1)

 # 列表推导式

 contents1 = [content.strip() for content in contents]

 print(contents1)

 # 把列表编程字符串

 text = '\n'.join(contents1)

 print(text)

 """保存小说内容"""

 # open 操作文件（写入、读取）

 file = open(title + '.txt', mode='w', encoding='utf-8')

 # 只能写入字符串

 file.write(title)

 file.write(text)

 # 关闭文件

 file.close()

# 传入一本小说的目录

def get_book_links(book_url):

 response = requests.get(book_url)

 response.encoding = response.apparent_encoding

 html = response.text

 sel = parsel.Selector(html)

 links = sel.css('dd a::attr(href)').extract()

 return links

# 下载一本小说

def get_one_book(book_url):

 links = get_book_links(book_url)

 for link in links:

 print('http://www.shuquge.com/txt/8659/' + link)

 download_one_chapter('http://www.shuquge.com/txt/8659/' + link)

if __name__ == '__main__':

 # target_url = 'http://www.shuquge.com/txt/8659/2324754.html'

 # # 关键词参数与位置参数

 # download_one_chapter(target_url=target_url)

 # 下载别的小说 直接换url

 book_url = 'http://www.shuquge.com/txt/8659/index.html'

 get_one_book(book_url)

爬取全站小说

如果你处于想学Python或者正在学习Python，Python的教程不少了吧，但是是最新的吗？

说不定你学了可能是两年前人家就学过的内容，在这小编分享一波2020最新的Python教程。

以上这些教程小编已经为大家打包准备好了，希望对正在学习的你有所帮助！

获取方式，私信小编 “ 资料 ”，即可免费获取哦！

如何用python爬虫从爬取一章小说到爬取全站小说的更多相关文章

Python爬虫入门教程 12-100 半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
Python爬虫入门教程： All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
Python爬虫入门教程：半次元COS图爬取
半次元COS图爬取-写在前面今天在浏览网站的时候,忽然一个莫名的链接指引着我跳转到了半次元网站 https://bcy.net/ 打开之后,发现也没有什么有意思的内容,职业的敏感让我瞬间联想到了 c ...
python爬虫24 | 搞事情了，用 Appium 爬取你的微信朋友圈。
昨天小帅b看到一些事情不顺眼有人偷换概念忍不住就写了一篇反讽 996 的看不下去了,我支持996,年轻人就该996! 没想到有些人看不懂这就算了还来骂我早些时候关注我的小伙伴应该知道我第一 ...
小白学 Python 爬虫（16）：urllib 实战之爬取妹子图
人生苦短,我用 Python 前文传送门: 小白学 Python 爬虫(1):开篇小白学 Python 爬虫(2):前置准备(一)基本类库的安装小白学 Python 爬虫(3):前置准备(二)Li ...
Python爬虫：设置Cookie解决网站拦截并爬取蚂蚁短租
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Eastmount PS:如有需要Python学习资料的小伙伴可以加 ...
Python爬虫入门教程 14-100 All IT eBooks多线程爬取
All IT eBooks多线程爬取-写在前面对一个爬虫爱好者来说,或多或少都有这么一点点的收集癖 ~ 发现好的图片,发现好的书籍,发现各种能存放在电脑上的东西,都喜欢把它批量的爬取下来. 然后放着 ...
python爬虫成长之路（一）：抓取证券之星的股票数据
获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为python3.5,意在抓取证券之星上当天所 ...
如何用Python爬虫实现百度图片自动下载？
Github:https://github.com/nnngu/LearningNotes 制作爬虫的步骤制作一个爬虫一般分以下几个步骤: 分析需求分析网页源代码,配合开发者工具编写正则表达式或 ...

随机推荐

Django之Cookie，Session
COOKIE Cookie的由来大家都知道HTTP协议是无状态的. 无状态的意思是每次请求都是独立的,它的执行情况和结果与前面的请求和之后的请求都无直接关系,它不会受前面的请求响应情况直接影响,也不 ...
django复习以及源码
django请求生命周期在浏览器上输入网址会发生什么事?(地址会朝我对应的ip地址发送get请求,get请求遵循http协议)先进入实现了wsgi协议的web服务器---->进入django- ...
[ex-kmp] HDU 2019 Multi-University Training Contest 5-string matching
string matching Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 262144/262144 K (Java/Others ...
bugku论剑场web解题记录
前言国庆这几天感觉没什么好玩的地方,家又离的太远,弱鸡的我便决定刷刷题涨涨知识,于是就有了这篇文章.. 正文写的不对的地方欢迎指正 web26 打开直接就是代码,这应该就是一道代码审计的题了这里 ...
Keras实现RNN模型
博客作者:凌逆战博客地址:https://www.cnblogs.com/LXP-Never/p/10940123.html 这篇文章主要介绍使用Keras框架来实现RNN家族模型,TensorFl ...
Python 聊天界面编写
import os from tkinter import * import time os.chdir('E:\\actdata') def main(): def sendMsg():#发送消息 ...
PyTorch专栏（六）: 混合前端的seq2seq模型部署
欢迎关注磐创博客资源汇总站: http://docs.panchuang.net/ 欢迎关注PyTorch官方中文教程站: http://pytorch.panchuang.net/ 专栏目录: 第一 ...
自签SSL证书
0.介绍自己开发的使用了SSL协议的软件,通常没必要从证书签发机构那里来获取证书,自签证书成了必要的选择.自签证书还可以用来实现客户端登录认证. 1.创建CA 创建CA的私钥 openssl gen ...
rabbitmq++：RabbitMQ的消息确认ACK机制介绍
1):什么是消息确认ACK. 答:如果在处理消息的过程中,消费者的服务器在处理消息的时候出现异常,那么可能这条正在处理的消息就没有完成消息消费,数据就会丢失.为了确保数据不会丢失,RabbitMQ支持 ...
写给小白看的入门级 Java 基本语法，强烈推荐
之前写的一篇我去阅读量非常不错,但有一句留言深深地刺痛了我: 培训班学习半年,工作半年,我现在都看不懂你这篇文章,甚至看不下去,对于我来说有点深. 从表面上看,这句话有点讽刺我的文章写得不够通俗易懂的 ...

如何用python爬虫从爬取一章小说到爬取全站小说

获取方式，私信小编 “ 资料 ”，即可免费获取哦！

如何用python爬虫从爬取一章小说到爬取全站小说的更多相关文章

随机推荐

热门专题