Python爬取三国演义章节标题和内容（bs4爬取，解决中文乱码）

import os.path

import requests

from bs4 import BeautifulSoup

if __name__ == '__main__':

    if not os.path.exists('./sanguoyanyi'):

        os.mkdir('./sanguoyanyi')

    url = 'https://www.shicimingju.com/book/sanguoyanyi.html'

    headers = {

        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/106.0.0.0 Safari/537.36'

    }

    # 获取页面内容

    # .encode('latin1').decode('utf-8-sig') 解决中文乱码

    page = requests.get(url=url, headers=headers).text.encode('latin1').decode('utf-8-sig')

    soup = BeautifulSoup(page, 'lxml')

    a_list = soup.select('.book-mulu ul li a')

    fp = open('./sanguoyanyi/sanguoyanyi.txt', 'w', encoding='utf-8')

    for a in a_list:

        # 获取章节标题

        title = a.text

        # 获取章节对应内容的url

        href = 'https://www.shicimingju.com/' + a['href']

        # 根据url获取内容页面数据

        content = requests.get(href, headers=headers)

        # 设置encoding避免爬取的时候中文乱码

        content.encoding = 'utf-8'

        content_soup = BeautifulSoup(content.text, 'lxml')

        content_data = content_soup.find('div', class_='chapter_content').text

        content_data = content_data.replace(u'&nbsp;', u'')

        fp.write(title + ':' + content_data + '\n')

        print('下载章节{0}成功'.format(title))

    fp.close()

    print("下载完成")

Python爬取三国演义章节标题和内容（bs4爬取，解决中文乱码）的更多相关文章

jpgraph 折线图--解决中文乱码的问题(标题和图例)
在jpgraph根目录中: 如Jpg\jpgraph_ttf.inc.php 中开头添加 define('CHINESE_TTF_FONT','SIMYOU.TTF'); \Jpg\jpgraph_l ...
python之MySQL MySQLdb 推荐使用姿势，解决中文乱码
0.目录 2.setup(1) 安装步骤,可以顺带安装mysql administrator和mysql query browser(2) 安装完毕,修改 my.ini(3) 重启 mysql 服务: ...
在visual studio code 中配置python以及解决中文乱码问题
安装好 visual stuido code (下面简称 “ VSC ”)后,要想使用它运行调试 python 代码还需要做一些工作以解决下列问题: 搭建 python 环境 print 打印中文出现 ...
WinForm开发浏览器，WebBrowser获取页面内容，如何解决中文乱码
WebBrowser的编码可以从文档对象中获得,将代码改为如下即可. System.IO.StreamReader getReader = new System.IO.StreamReader(thi ...
python flask 解决中文乱码
response = make_response(output_string)response.headers['Content-Type'] = 'text/plain;charset=UTF-8' ...
Python中解决中文乱码问题
乱码原因:因为你的文件声明为utf-8,并且也应该是用utf-8的编码保存的源文件.但是windows的本地默认编码是cp936,也就是gbk编码,所以在控制台直接打印utf-8的字符串当然是乱码了. ...
python生成饼图解决中文乱码
解决乱码问题乱码的原因字体的不匹配解决的方法加上引用中文字体就好了 matplotlib.rcParams['font.sans-serif'] = ['SimHei'] 代码 def sta ...
python爬取三国演义的所有章节储存到本地文件中
#爬取三国演义的全部章节 2 3 import urllib 4 import urllib.request 5 import urllib.parse 6 from lxml import etre ...
Python3：爬取新浪、网易、今日头条、UC四大网站新闻标题及内容
Python3:爬取新浪.网易.今日头条.UC四大网站新闻标题及内容以爬取相应网站的社会新闻内容为例: 一.新浪: 新浪网的新闻比较好爬取,我是用BeautifulSoup直接解析的,它并没有使用J ...
requests利用selenium,代理Ip,云打码，验证码抠图操作爬取搜狗微信公众号内容
爬取思路,爬取搜狗微信公众号内容,爬取第一层url时请求太快出现验证码,我这里用的蘑菇云代理,并在程序中我判断什么情况下是否+代理,做到合理运用代理ip.爬取第二层url时验证码出现次数更严重(和第一 ...

随机推荐

【数据结构和算法】Trie树简介及应用详解
作者:京东物流马瑞 1 什么是Trie树 1.1 Trie树的概念 Trie树,即字典树,又称单词查找树或键树,是一种树形结构,典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经 ...
Stream流的特点_只能用一次-Stream流中的常用方法_map
Stream流的特点_只能用一次 Stream流属于管道流,只能被消费(使用)一次第一个stream流调用完毕方法,数据就会流转到下一个stream上而这时第一个stream流已经使用完毕,就会关 ...
重写Object类的equals方法-Objects类的equals方法
重写Object类的equals方法 Object类的equals方法默认比较的是两个对象的地址值,没有意义所以我们学要重写equals方法,比较两个对象的属性值(name,age) 对象的属性值一样 ...
redis-07主从复制
转 https://www.jianshu.com/p/06ab9daf921d https://www.jianshu.com/p/06ab9daf921d 1 基本说明我们所说的主从复制,主机数 ...
Idea创建类模板方法模板
参考https://blog.csdn.net/sdut406/article/details/81750858 写代码是少不了注释的,但是自带的注释就几个,所以使用注释模板添加自定义的注释是个非常好 ...
毕设进度更新（真的不知道自己做到哪- - 备忘录性质）+3.19是mavan配置的常见问题
3.19 maven的配置我也不知道我的cmd 输入mvn complie就是报错也没办法下载奇了怪了检查了setting文件也没得- - 然后也没办法像老师一样直接导入tomcat的包但是 ...
.net NPOI Excel导入：时间格式2022/5/26导入变成26-5月-2022
1.问题由来在做一个导入的需求时,测试导入模板,无论导入模板里的日期设置成何种日期格式到代码中都会提示有不正确的格式化数据,加断点调试发现,导入的日期如:Excel表格中是2022/5/26,断点看 ...
STM32F1库函数初始化系列：串口DMA空闲接收_DMA发送
1 void USART3_Configuration(void) //串口3配置---S 2 { 3 DMA_InitTypeDef DMA_InitStructure; 4 USART_InitT ...
多线程并发（二）：聊聊AQS中的共享锁实现原理
在上一篇文章多线程并发(一)中我们通过acquire()详细地分析了AQS中的独占锁的获取流程,提到独占锁,自然少不了共享锁,所以我们这边文章就以AQS中的acquireShared()方法为例,来分 ...
osx使用alfred集成有道查词
概述使用 mac 的同学应该经常会使用 alfred 这个软件, 主要能随时能够通过一个快键键打开查询窗口, 方便的搜索或打开软件, 文件等等, 同时也可以集成脚本方便实现其它的功能. 在日常使用的 ...

Python爬取三国演义章节标题和内容（bs4爬取，解决中文乱码）

Python爬取三国演义章节标题和内容（bs4爬取，解决中文乱码）的更多相关文章

随机推荐

热门专题