bs4 解析以及用法

bs4解析

bs4：

环境安装：
- lxml
- bs4
bs4编码流程：
- 1.实例化一个bs4对象，且将页面源码数据加载到该对象中
- 2.bs相关的方法或者属性实现标签定位
- 3.取文本或者取属性
bs的属性和方法：
- soup.tagName
- tagName.string/text/get_text()
- tagName[attrName]
- find(tagName,attrName='value')
- select('层级选择器') > 空格

- 环境的安装：

    - pip install lxml

    - pip install bs4

- bs4解析原理：

    - 实例化一个bs对象，且将页面源码数据加载到该对象中。

    - 使用bs对象中封装好的属性或者方法实现标签定位

    - 将定位到的标签中的文本（属性）取出

用法:

import requests

from bs4 import BeautifulSoup

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}

#将本地的一个test.html文档中的源码数据加载到bs对象中

soup = BeautifulSoup(open('./test.html','r',encoding='utf-8'),'lxml')

soup.p #定位到源码中第一个p标签

soup.a['href']  #取属性

soup.img['src']

# 取文本  返回字符串

soup.p.get_text()

# 取标签

soup.div

#

soup.div.string  #string直接获取标签的直系文本内容

soup.div.text # 取文本

soup.ul.text

# 查找 只查找第一个元素

soup.find('li')   #soup.li

#属性定位

soup.find('div',class_='song')

# 查找所有的 div标签

soup.find_all('div')[0]

# 通过选择器查找  返回列表

soup.select('#feng')

# 获取 内容

soup.select('ul > li > a')[3].string

bs4 爬取某某诗词网

#需求：某某诗词网中的三国演义小说进行爬取：http://www.*****.com/book/sanguoyanyi.html

import requests

from bs4 import BeautifulSoup

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'

}

url = 'http://www.****.com/book/sanguoyanyi.html'

page_text = requests.get(url=url,headers=headers).text

#数据解析

soup = BeautifulSoup(page_text,'lxml')

#解析出章节和详情页的url

li_list = soup.select('.book-mulu > ul > li')

fp = open('./三国演义.txt','w',encoding='utf-8')

for li in li_list:

    title = li.a.string

    detail_url = 'http://www.**********.com'+li.a['href']

    #获取了详情页的页面源码数据

    detail_page_text = requests.get(url=detail_url,headers=headers).text

    soup = BeautifulSoup(detail_page_text,'lxml')

    #解析出章节对应的内容

    content = soup.find('div',class_='chapter_content').text

    fp.write(title+'\n'+content)

    print(title,'下载完毕')

fp.close()

bs4 解析以及用法的更多相关文章

Python3.x：bs4解析html基础用法
Python3.x:bs4解析html基础用法代码: import urllib.request from bs4 import BeautifulSoup import re url = r'ht ...
Intent的详细解析以及用法
Intent的详细解析以及用法 Android的四大组件分别为Activity .Service.BroadcastReceiver(广播接收器).ContentProvider(内容提供者 ...
bs4解析库
beautifulsoup4 bs4解析库是灵活又方便的网页解析库,处理高效,支持多种解析器.利用它不用编写正则表达式即可方便地实现网页的提取要解析的html标签 from bs4 import B ...
爬虫的三种解析方式(正则解析, xpath解析, bs4解析)
一 : 正则解析 : 常用正则回顾: 单字符: . : 除换行符以外的所有字符 [] : [aoe] [a-w] 匹配集合中任意一个字符 \d : 数字 [0-9] \D : 非数字 \w : 非数字 ...
bs4解析
介绍:将一个html文档转换成BeautifulSoup对象,然后通过对象的方法或属性查找指定的节点内容转换本地文件: soup = BeautifulSoup(fp,'lxml') fp为文档 ...
python bs4解析网页时 bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to inst（转）
Python小白,学习时候用到bs4解析网站,报错 bs4.FeatureNotFound: Couldn't find a tree builder with the features you re ...
爬虫系列二(数据清洗--->bs4解析数据)
一 BeautifulSoup解析 1 环境安装 - 需要将pip源设置为国内源,阿里源.豆瓣源.网易源等 - windows (1)打开文件资源管理器(文件夹地址栏中) (2)地址栏上面输入 %ap ...
pytho爬虫使用bs4 解析页面和提取数据
页面解析和数据提取关注公众号"轻松学编程"了解更多. 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值.内容一般分为两部分,非结构化的数据和结构化的 ...
JQuery 中 is(':visible') 解析及用法
实例选择 <body> 元素中每个可见的元素: $("body :visible") 亲自试一试定义和用法 :visible 选择器选取每个当前是可见的元素. 除以 ...

随机推荐

从零开始学安全(十四)●Windows Server 2012 R2 本地搭建FTP服务器
打开仪表盘添加角色和功能向导下一步等待安装完成打开iis 新建站点点击选一个目录作为 ftp文件服务器的存储路径后面就和iis 创建站点一样了匿名就不需要密码就可以访问基本需要特定的账 ...
[PHP] 多进程通信-消息队列使用
向消息队列发送数据和获取数据的测试 <?php $key=ftok(__FILE__,'a'); //获取消息队列 $queue=msg_get_queue($key,0666); //发送消息 ...
SpringBoot零XML配置的Spring Boot Application
Spring Boot 提供了一种统一的方式来管理应用的配置,允许开发人员使用属性properties文件.YAML 文件.环境变量和命令行参数来定义优先级不同的配置值.零XML配置的Spring B ...
JavaScript机器学习之线性回归
译者按: AI时代,不会机器学习的JavaScript开发者不是好的前端工程师. 原文: Machine Learning with JavaScript : Part 1 译者: Fundebug ...
js 对象转数组
function objToArray(array) { var arr = [] for (var i in array) { arr.push(array[i]); } console.log(a ...
[HTML/CSS]浮动的那点事儿
元素是怎样浮动元素的水平方向浮动,意味着元素只能左右移动而不能上下移动. 一个浮动元素会尽量向左或向右移动,直到它的外边缘碰到包含框或另一个浮动框的边框为止. 浮动元素之后的元素将围绕它. 浮动元素 ...
@Value取不到值的原因（引用application.properties中自定义的值）
在spring mvc架构中,如果希望在程序中直接使用properties中定义的配置值,通常使用一下方式来获取: @Value("${tag}") private String ...
android笔试题二
1.android系统架构: Linux内核——标准库——Framework层——应用层 Linux层包括:Android系统的核心服务,硬件驱动,进程管理,系统安全等等 (现在又加了一层变成了:Li ...
Eclipse For JavaSE安装、配置、测试
Eclipse For JavaSE安装.配置.测试(win7_64bit) 目录 1.概述 2.本文用到的工具 3.安装与配置 4.JavaSE开发测试 5.ADT安装与Android开发测试 6. ...
Android项目实战（四十七）：轮播图效果Viewpager
简易.常用的轮播图效果ViewPager ,老技术了,记一笔留着以后ctrl C + ctrl V 需求如下: 不定张个数的ImagView轮播,右下角显示轮播点图标,每隔固定时间切换下一张,最 ...

bs4 解析 以及用法

bs4解析

bs4 爬取某某诗词网

bs4 解析 以及用法的更多相关文章

随机推荐

热门专题

bs4 解析以及用法

bs4 解析以及用法的更多相关文章