一.使用流程

    解析流程:

        1.pip install bs4

        2.导包:from bs4 import BeautifulSoup

        3.实例化一个BeautifulSoup对象(将页面源码数据加载到该对象中)
　　　　　　（1）转化本地文件： - soup = BeautifulSoup(open('本地文件'), 'lxml')
　　　　　　（2）转化网络文件： - soup = BeautifulSoup('字符串类型或者字节类型', 'lxml')

        4.调用BeautifulSoup对象中的相关属性和方法进行标签的定位

二.基本语法

基础巩固：

    （1）根据标签名查找

        - soup.a   只能找到第一个符合要求的标签

    （2）获取属性

        - soup.a.attrs  获取a所有的属性和属性值，返回一个字典

        - soup.a.attrs['href']   获取href属性

        - soup.a['href']   也可简写为这种形式

    （3）获取内容

        - soup.a.string      获取a标签的直系文本

        - soup.a.text　　　　 这是属性,获取a子类的所有文本

        - soup.a.get_text()  这是方法,获取a标签子类的所有文本

       【注意】如果标签还有标签，那么string获取到的结果为None，而其它两个，可以获取文本内容

    （4）find：找到第一个符合要求的标签

        - soup.find('a')  找到第一个符合要求的

        - soup.find('a', title="xxx") 具有title=a属性的

        - soup.find('a', alt="xxx")

        - soup.find('a', class_="xxx")

        - soup.find('a', id="xxx")

    （5）find_all：找到所有符合要求的标签

        - soup.find_all('a')

        - soup.find_all(['a','b']) 找到所有的a和b标签

        - soup.find_all('a', limit=2)  限制前两个

    （6）根据选择器选择指定的内容

               select:soup.select('#feng')

        - 常见的选择器：标签选择器(a)、类选择器(.)、id选择器(#)、层级选择器

            - 层级选择器：

                div .dudu #lala .meme .xixi  下面好多级

                div > p > a > .lala          只能是下面一级
　　　　　　　　select就是css选择器

        【注意】select选择器返回永远是列表，需要通过下标提取指定的对象

三.重点语法find和find_all

　　1.　name参数的四种过滤器
　　   soup=Beautifulsoup('page','lxml')

- 　不带过滤器: print(soup.find_all())　 #没有过滤,查找所有标签
- 字符串过滤器: print (soup.find_all())　　#字符串过滤器,即标签名
- 列表: print(soup.find_(['a','b'])) #找到所有的a标签和b标签,任一即可
- 正则:　　 print(soup.find_all(re.complie('^b'))) #找到所有b开头的标签
- 方法: def has_class_but_no_id(tag):
  - - 　　　　　　return tag.has_attr('class') and not tag.has_attr('id')
    - print(soup.find_all(has_class_but_no_id))

　　2、按照类名查找，注意关键字是class_，class_=value,value可以是五种选择器之一
　　　　　　 print(soup.find_all('a',class_='sister')) #查找类为sister的a标签 
　　　　　　 print(soup.find_all('a',class_='sister ssss')) #查找类为sister和sss的a标签，顺序错误也匹配不成功 
　　　　　　 print(soup.find_all(class_=re.compile('^sis'))) #查找类为sister的所有标签

　 3、attrs 
　　　　print(soup.find_all('p',attrs={'class':'story'}))

　 4、text: 值可以是：字符，列表，True，正则 
　　　　print(soup.find_all(text='Elsie')) 
　　　　print(soup.find_all('a',text='Elsie'))　　
`
　 5、limit参数:如果文档树很大那么搜索会很慢.如果我们不需要全部结果,可以使用 limit 参数限制返回结果的数量.效果与SQL中的limit关键字类似,
　　当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果

　　　　print(soup.find_all('a',limit=2))

　　6、recursive:调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False .

　　　　print(soup.html.find_all('a'))

　　　　print(soup.html.find_all('a',recursive=False))

　　7.find和find_all一样

四.爬取小说

import requests

from bs4 import BeautifulSoup

'''

    解析流程:

        1.pip install bs4

        2.导包:from bs4 import BeautifulSoup

        3.实例化一个BeautifulSoup对象(将页面源码数据加载到该对象中)

        4.调用BeautifulSoup对象中的相关属性和方法进行标签的定位

'''

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'

}

url='http://www.shicimingju.com/book/sanguoyanyi.html'

page_text=requests.get(url=url,headers=headers).text

bs4=BeautifulSoup(page_text,'lxml')

#返回一个li列表

li_list=bs4.select('.book-mulu>ul>li')

f=open('./bs-三国','w',encoding='utf-8')

for li in li_list:

    detail_url='http://www.shicimingju.com'+li.a['href']

    detail_page_text=requests.get(detail_url).text

    bs=BeautifulSoup(detail_page_text)

    title=bs.select('.www-main-container>h1')[0].text #select返回的是列表

    content=bs.find('div',class_='chapter_content').text

    f.write(title+'\n'+content)

    print(title+':下载成功')

bs4的简单使用的更多相关文章

爬虫，基于request，bs4 的简单实例整合
简单爬虫示例爬取抽屉,以及自动登陆抽屉点赞先查看首页拿到cookie,然后登陆要携带首页拿到的 cookie 才可以通过验证 """""" ...
python bs4 + requests4 简单爬虫
参考链接: bs4和requests的使用:https://www.cnblogs.com/baojinjin/p/6819389.html 安装pip:https://blog.csdn.net/z ...
bs4的简单应用之防止xss攻击和文本截断
BeautifulSoup可以过滤html标签,根据这个功能我们可以防止xss攻击和进行文本过滤 1. 安装 pip install beautifulsoup4 2.导入.使用 from bs4 i ...
python爬虫起步...开发环境搭建，最简单的方式
研究一门编程语言,一般第一步就是配置安装部署相关的编程环境.我认为啊,在学习的初期,大家不是十分了解相关的环境,或者是jar包,python模块等的相关内容,就不需要花费大量的时间去研究如何去安装它. ...
《爬虫学习》（四）（使用lxml,bs4库以及正则表达式解析数据）
1.XPath: XPath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历. 工具:扩展商店里搜索:XPath ...
Python 目录指引
1.0 Python 基础整合 1.1 变量 1.2 数据类型 1.3 基础语法 1.4 文件操作 1.5 函数 1.6 生成器 1.7 迭代器 1.8 装饰器 1.9 字符集 2.0 Python ...
Python BeautifulSoup 使用
BS4库简单使用: 1.最好配合LXML库,下载:pip install lxml 2.最好配合Requests库,下载:pip install requests 3.下载bs4:pip instal ...
项目实战：BBS+Blog项目开发
01-博客系统之功能需求 02-博客系统之表结构设计1 03-博客系统之表结构设计2 04-博客系统之表结构设计3 05-博客系统之表结构设计4 06-博客系统之表机构设计5 07-博客系统之创建系统 ...
练习： bs4 简单爬取 + matplotlib 折线图显示（关键词，职位数量、起薪）
要看一种技术在本地的流行程度,最简单的就是找招聘网站按关键词搜索. 比如今天查到的职位数量是vue 1296个,react 1204个,angular 721个.国际上比较流行的是react,本地市场 ...

随机推荐

全局事务/分布式事务（Global Transaction/ A distributed transaction）之我见
这里参考的是Oracle对于XA的支持,其他的应该雷同吧... 1个分布式事务由多个行为在不同的数据库上执行,1个分布式事务的执行成功意味着相关数据库上的行为执行均成功.“XA协定”(http://w ...
Android中的文件读写总结
在Android中,文件主要分为两大类,内部存储和外部存储内部存储的文件是程序私有的,分为普通文件和Cache文件外部文件也可以是私有的,也可以是共有的,这要根据文件的目录位置来决定共有文件可以 ...
在windows中安装OpenSSH，无密码登录，永远不断线
到这里下载最新安装包:https://github.com/PowerShell/Win32-OpenSSH/releases下载下来解压,然后用管理员打开服务器自带的PowerShell,运行下列命 ...
java Servlet学习笔记(一)
访问机制 (https://pan.baidu.com/share/link?shareid=3055126243&uk=3355579678&fid=1073713310362078 ...
责任型模式一：Observer（观察者）模式
目的: Observer模式的宗旨是在多个对象之间定义一对多的关系,以便当一个对象状态改变时,其他所有依赖于这个对象的对象都能得到通知,并被自动更新.常用于业务逻辑层与表现层的分离. 需求:由GUI引 ...
Redhat 6 git服务器配置 (git-daemon)
git-daemon是按照git的自己的git协议进行访问git服务 1.git-daemon软件安装软件仓库见 redhat 6 git 服务器配置 (http) 2.配置git dae ...
类的继承与super()的意义以即如何写一个正确的异常类
这些东西都是我看了许多名师课程和自己研究的成果,严禁转载,这里指出了如何正确的自己定义一个异常类并看一看sun写的java的源代码话题一:子类的构造器执行是否一定会伴随着父类的构造执行? 1.this ...
c 数组作为返回值注意
static char* Test() { char buf[] ="aa"; printf("%s\n",buf); return buf; } int ma ...
动态横向(水平)合并GridView数据行DataRow的列
前一段时间,Insus.NET有写过<动态合并GridView数据行DataRow的列>http://www.cnblogs.com/insus/p/3238348.html, 那是纵向( ...
loj#6485. LJJ 学二项式定理（单位根反演）
题面传送门题解首先你要知道一个叫做单位根反演的东西 \[{1\over k}\sum_{i=0}^{k-1}\omega^{in}_k=[k|n]\] 直接用等比数列求和就可以证明了而且在模\ ...

bs4的简单使用

一.使用流程

二.基本语法

三.重点语法find和find_all

四.爬取小说

bs4的简单使用的更多相关文章

随机推荐

热门专题