python|爬虫东宫小说

2k小说网爬取最近大火的《东宫》小说，借鉴之前看过的一段代码，修改之后，进行简单爬取。

from urllib import request
from bs4 import BeautifulSoup
url='https://www.fpzw.com/xiaoshuo/19/19210/'
req=request.Request(url)
response=request.urlopen(req)
html=response.read()
soup=BeautifulSoup(html,'html.parser')
soup_text=soup.find_all('dd')[4:]
f= open('Desktop/donggong.doc','w',encoding='utf-8')
for link in soup_text:
url2='https://www.fpzw.com/xiaoshuo/19/19210/'+link.a.get('href')
req2=request.Request(url2)
response2=request.urlopen(req2)
html2=response2.read()
soup2=BeautifulSoup(html2,'html.parser')
soup_text2=soup2.find('p',class_="Text").text
soup_text3=soup_text2.replace('东宫最新章节','')
soup_text3=soup_text3.replace('2k小说网欢迎您！本站域名:"2k小说"的完整拼音fpzw.com，很好记哦！www.fpzw.com 好看的小说','')
soup_text3=soup_text3.replace('强烈推荐：','')
f.write(soup_text3)
f.write('\n\n')
f.close()

爬取的结果没进行精细处理，后续待优化。

python|爬虫东宫小说的更多相关文章

python爬虫之小说网站--下载小说(正则表达式)
python爬虫之小说网站--下载小说(正则表达式) 思路: 1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/244 ...
Python爬虫-爬小说
用途用来爬小说网站的小说默认是这本御天邪神,虽然我并没有看小说,但是丝毫不妨碍我用爬虫来爬小说啊. 如果下载不到txt,那不如自己把txt爬下来好了. 功能将小说取回,去除HTML标签记录已爬过 ...
Python爬虫中文小说网点查找小说并且保存到txt(含中文乱码处理方法)
从某些网站看小说的时候经常出现垃圾广告,一气之下写个爬虫,把小说链接抓取下来保存到txt,用requests_html全部搞定,代码简单,容易上手. 中间遇到最大的问题就是编码问题,第一抓取下来的小说 ...
如何丧心病狂的使用python爬虫读小说
写在前边其实一直想入门python很久了,慕课网啊,菜鸟教程啊python的基础的知识被我翻了很多遍了,但是一直没有什么实践.刚好,这两天被别人一直安利一本小说<我可能修的是假仙>,还在 ...
使用Python爬虫整理小说网资源-自学
第一次接触python,原本C语言的习惯使得我还不是很适应python的语法风格.希望读者能够给出建议. 相关的入门指导来自以下的网址:https://blog.csdn.net/c406495762 ...
python爬虫之小说爬取
废话不多说,直接进入正题. 今天我要爬取的网站是起点中文网,内容是一部小说. 首先是引入库 from urllib.request import urlopen from bs4 import Bea ...
python爬虫爬小说网站涉及到(js加密,CSS加密)
我是对于xxxx小说网进行爬取只讲思路不展示代码请见谅一.涉及到的反爬 js加密 css加密请求头中的User-Agent以及 cookie 二.思路 1.对于js加密对于有js加密信息,我们一 ...
python爬虫下载小说
1. from urllib.request import urlopen from urllib import request from bs4 import BeautifulSoup from ...
批量下载小说网站上的小说（python爬虫）
随便说点什么因为在学python,所有自然而然的就掉进了爬虫这个坑里,好吧,主要是因为我觉得爬虫比较酷,才入坑的. 想想看,你可以批量自动的采集互联网上海量的资料数据,是多么令人激动啊! 所以我就被 ...

随机推荐

[ZOJ 3063] Draw Something Cheat
题目链接:http://acm.zju.edu.cn/onlinejudge/showProblem.do?problemId=4706 思路:字符串是一个集合(由0到多个A~Z字符组成),我们可以假 ...
一个javascript面试题
javascript面试题代码: <script type="text/javascript"> function fun(x,y){ console.log(&quo ...
洛谷 P2939 [USACO09FEB]改造路Revamping Trails
题意翻译约翰一共有N)个牧场.由M条布满尘埃的小径连接.小径可以双向通行.每天早上约翰从牧场1出发到牧场N去给奶牛检查身体. 通过每条小径都需要消耗一定的时间.约翰打算升级其中K条小径,使之成为高 ...
less 分页显示文件内容
1.命令功能 less 是more的增强版,可以分页显示文件内容,而且less打开文件的速度要比vi,more更快.less支持搜索功能,显示行号. 2.语法格式 less option file ...
mac+django(1.8.2)+uwsgi+nginx 部署
一. uwsgi 安装检验配置uwsgi.ini 1. 安装 pip3 install uwsgi 2. 检验方法一(uwsgi启动文件): test.py内容如下: def applicati ...
Python——变量的作用域
原创声明:本文系博主原创文章,转载及引用请注明出处. 1. 在编程语言中,变量都有一定的作用域,用来限定其生命周期,且不同类型的变量作用域不同. 在Python中解释器引用变量的顺序(优先级)为:当前 ...
Linux的信号管理
man 7 signal #查看信号的实用信息常用的信号: 信号名编号含义SIGHUP 1 无须关闭进程而让其重读配置文件SIGINT 2 ...
10分钟搭建Kubernetes容器集群平台（kubeadm）
官方提供Kubernetes部署3种方式 minikube Minikube是一个工具,可以在本地快速运行一个单点的Kubernetes,尝试Kubernetes或日常开发的用户使用.不能用于生产环境 ...
sysbench0.4.12测试query_cache_size和query_cache_type
建议: query_cache_size和query_cache_type生产环境中关闭. (1)软件包下载地址: https://dev.mysql.com/downloads/benchmarks ...
对bloom的理解及优化
varying uv放到vs 讲下bloom的细节上图这种做法 temporally stable box filtering up 的时候需要filter 上述upscale有两张srv dow ...

python|爬虫东宫小说

python|爬虫东宫小说的更多相关文章

随机推荐

热门专题