bs4-爬取小说

bs4

安装

pip install bs4

pip install lxml

bs4有两种运行方式一种是处理本地资源，一种是处理网络资源

本地

from bs4 import BeautifulSoup

if __name__ == '__main__':

    fr = open("wl.html",'r',encoding="utf8")

    soup=BeautifulSoup(fr,'lxml')

    print(soup)

网络

from bs4 import BeautifulSoup

import requests

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"

}

if __name__ == '__main__':

    url="https://www.cnblogs.com/zx125/p/11404486.html"

    res=requests.get(url=url,headers=headers)

    soup=BeautifulSoup(res.text,'lxml')

    print(soup)

实例化对象的方法

soup.tagname

直接返回第一个tag标签的内容

#返回第一个a标签对象

soup.a

soup.find()

#效果和上面类似

soup.find(tagname)

#class_为tagname上的class内的属性

soup.find(tagname,class_="")

#有以下属性

class_ id attr

双重定位 属性定位 但是只拿一个

soup.find_all()

#用法和上面相同但是可以拿到满足条件的所有数据

soup.find(tagname,class_="")

soup.select()

#它支持css的选择器

select('某种选择器 #id .class 标签...'),返回的是一个列表

层级选择

soup.select('.zx > ul > li  > a')一个>表示一个层级

soup.select('.zx > ul a')也可以这样写，一个空格代表以下的任意层级，并找到所有的a

获取标签的文本内容

soup.select('.zx > ul a').tagname.text/string/get_text()

text/get_text()获取标签下面所有的文本内容

string只获取直系的文本

获取标签中的属性值

a["href"]

基本使用

from bs4 import BeautifulSoup

soup=BeautifulSoup(html_doc,'lxml') #具有容错功能

res=soup.prettify() #处理好缩进，结构化显示

案例爬取小说标题和内容

import requests

from bs4 import BeautifulSoup

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"

}

def work():

    url="http://www.shicimingju.com/book/sanguoyanyi.html"

    res=requests.get(url=url,headers=headers).text

    #读取首页信息

    soup=BeautifulSoup(res,"lxml")

    #获取所有标题存在的a标签

    titles=soup.select(".book-mulu > ul > li > a")

    with open("./sangup.txt","w",encoding="utf8")as fw:

        for i in titles:

            #获取标题名称

            title=i.text

            #获取文章内容的url，并拼接成有效的请求链接

            url_title="http://www.shicimingju.com"+i['href']

            res2=requests.get(url=url_title,headers=headers).text

            soup2=BeautifulSoup(res2,"lxml")

            #获取每个章节的文章内容

            content=soup2.find("div",class_="chapter_content").text

            context_all=title+"\n"+content+"\n"

            #将标题和文章内容写入本地文件

            fw.write(context_all)

            print(title+"写入成功")

if __name__ == '__main__':

    work()

参考链接

https://www.cnblogs.com/xiaoyuanqujing/articles/11805757.html

https://www.jianshu.com/p/9254bdc467b2

bs4-爬取小说的更多相关文章

python爬虫——爬取小说 | 探索白子画和花千骨的爱恨情仇(转载)
转载出处:药少敏 ,感谢原作者清晰的讲解思路! 下述代码是我通过自己互联网搜索和拜读完此篇文章之后写出的具有同样效果的爬虫代码: from bs4 import BeautifulSoup imp ...
python之爬取小说
继上一篇爬取小说一念之间的第一章,这里将进一步展示如何爬取整篇小说 # -*- coding: utf- -*- import urllib.request import bs4 import re ...
用Python爬取小说《一念永恒》
我们首先选定从笔趣看网站爬取这本小说. 然后开始分析网页构造,这些与以前的分析过程大同小异,就不再多叙述了,只需要找到几个关键的标签和user-agent基本上就可以了. 那么下面,我们直接来看代码. ...
python3下BeautifulSoup练习一（爬取小说）
上次写博客还是两个月以前的事,今天闲来无事,决定把以前刚接触python爬虫时的一个想法付诸行动:就是从网站上爬取小说,这样可以省下好多流量(^_^). 因为只是闲暇之余写的,还望各位看官海涵:不足之 ...
Python实战项目网络爬虫之爬取小说吧小说正文
本次实战项目适合,有一定Python语法知识的小白学员.本人也是根据一些网上的资料,自己摸索编写的内容.有不明白的童鞋,欢迎提问. 目的:爬取百度小说吧中的原创小说<猎奇师>部分小说内容 ...
python实战项目 — 使用bs4 爬取猫眼电影热榜（存入本地txt、以及存储数据库列表）
案例一: 重点: 1. 使用bs4 爬取 2. 数据写入本地 txt from bs4 import BeautifulSoup import requests url = "http:// ...
Scrapy爬取小说简单逻辑
Scrapy爬取小说简单逻辑一准备工作 1)安装Python 2)安装PIP 3)安装scrapy 4)安装pywin32 5)安装VCForPython27.exe ........... 具体 ...
使用request+bs4爬取所有股票信息
爬取前戏我们要知道利用selenium是非常无敌的,自我认为什么反爬不反爬都不在话下,但是今天我们为什么要用request+bs4爬取所有股票信息呢?因为他比较原始,因此今天的数据,爬取起来也是比较 ...
Golang 简单爬虫实现，爬取小说
为什么要使用Go写爬虫呢? 对于我而言,这仅仅是练习Golang的一种方式. 所以,我没有使用爬虫框架,虽然其很高效. 为什么我要写这篇文章? 将我在写爬虫时找到资料做一个总结,希望对于想使用Gola ...
Python3爬取小说并保存到文件
问题 python课上,老师给同学们布置了一个问题,因为这节课上学的是正则表达式,所以要求利用python爬取小说网的任意小说并保存到文件. 我选的网站的URL是'https://www.biquka ...

随机推荐

工厂模式（C++)
转载来源:https://www.runoob.com/design-pattern/ 工厂模式创建型模式,它提供了一种创建对象的最佳方式. 在工厂模式中,我们在创建对象时不会对客户端暴露创建逻辑, ...
textarea如何实现高度自适应（一）
转自轩枫阁 - http://www.xuanfengge.com/textarea-on-how-to-achieve-a-high-degree-of-adaptive.html 方法一:div模 ...
Java 干货之深入理解String
可以证明,字符串操作是计算机程序设计中最常见的行为,尤其是在Java大展拳脚的Web系统中更是如此. ---<Thinking in Java> 提到Java中的String,总是有说不完 ...
在mac上用parallels创建双windows虚拟机调试windows驱动
先创建两个windows 7 虚拟机,一个装windbg作为调试机,一个被调试 1 调试机 1 先装windbg https://developer.microsoft.com/en-us/windo ...
「2019.8.9 考试」神仙的dp总让人无所适从
T1是个容斥,我掐手指一算他为了卡容斥的正确性,绝不会把n和m出的很相近($O(n^2)$算法在nm相等的时候达到最高时间复杂度),不然就太好做了,于是开了特判+各种卡常和滚动数组优化,卡到了70分, ...
CSPS模拟 98
T1 待改 T2 这道题的爆炸充分说明我最近已经颓到一定境界了考虑到总步数不可能超过n 直接枚举总步数,那么任意时刻对末态的影响就是确定的 T3 两遍最短路,一遍从-1的限制考虑求出允许的最早时间, ...
Tomcat性能调优实战
今日帮朋友做了tomcat性能调优的实际操作,心得记录一下. 服务器:Windows2017 配置:CPU 4 内存 8G Tomcat8.0+版本. 压力测试工具:apache-jmeter-4.0 ...
1、第一个TensorFlow程序
import tensorflow as tf import os os.environ[' #去掉警告,将警告级别提升 a = tf.constant(2) #定义一个常量 b = tf.const ...
【转载】InstantRun 原理——深度剖析 AndroidStudio 2.0
一.前言 Android Studio 2.0开始支持 Instant Run 特性, 使得在开发过程中能快速将代码变化更新到设备上.之前,更新代码之后需要先编译一个完整的新Apk,卸载设备上已安装的 ...
使用Typescript重构axios(十五)——默认配置
0. 系列文章 1.使用Typescript重构axios(一)--写在最前面 2.使用Typescript重构axios(二)--项目起手,跑通流程 3.使用Typescript重构axios(三) ...

bs4-爬取小说

bs4

安装

bs4有两种运行方式一种是处理本地资源，一种是处理网络资源

实例化对象的方法

基本使用

案例爬取小说标题和内容

参考链接

bs4-爬取小说的更多相关文章

随机推荐

热门专题