爬虫-数据解析-bs4

1.数据解析

解析: 根据指定的规则对数据进行提取
作用: 实现聚焦爬虫
数据解析方式:
```
- 正则表达式

- bs4

- xpath
```
数据解析的通用原理:
- 数据解析需要作用在页面源码中(一组html标签组成的)
```
html:的核心作用是展示数据
```
- 通用原理:
  - 标签定位
  - 获取文本或者属性

正则表达式实现数据解析

# 需求:爬取糗事百科中糗图数据

import requests

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'

}

#方式1:

url = 'https://pic.qiushibaike.com/system/pictures/12217/122176396/medium/OM37E794HBL3OFFF.jpg'

img_data = requests.get(url=url,headers=headers).content #content返回的是byte类型的数据

with open('./123.jpg','wb') as fp:

    fp.write(img_data)

#方式2:

from urllib import request

url = 'https://pic.qiushibaike.com/system/pictures/12217/122176396/medium/OM37E794HBL3OFFF.jpg'

request.urlretrieve(url,'./456.jpg')

- 方式2不可以使用UA伪装的机制

- urllib就是一个比较老的网络请求的模块,在requests模块没有出现之前,请求发送的操作使用的都是urllib

2.bs4 解析模块

模块安装 :
- pip install bs4
- pip install lxml
bs4 的解析原理
- 实例化一个beautifulSoup的对象,并且将即将被解析的源码数据加载到该对象中
- 调用beautifulSoup对象中的相关属性和方法继续宁标签定位和数据提取
如何实例化BeautifulSoup对象
- BeautifulSoup(fp,'lxml'):专门用作于解析本地存储的html文档中的数据
```
from bs4 import BeautifulSoup

fp = open('./test.html','r',encoding='utf-8')

soup = BeautifulSoup(fp,'lxml') #将即将被解析的页面源码加载到该对象中
```
- BeautifulSoup(page_text,'lxml'):专门用作于将互联网上请求到的页面源码数据进行解析

标签定位:

soup = BeautifulSoup(page_text,'lxml') 实例化一个对象
soup.tagName:定位到第一个TagName标签,返回的是单数
属性定位:soup.find('tagName',attrName='value'),返回也是单数
- find_all:和find用法一致,但是返回值是列表

选择器定位:select('选择器'),返回值为列表

标签选择器,类选择器,id选择器,层级选择器(>:一个层级,空格:多个层级)

from bs4 import BeautifulSoup

fp = open('./test.html','r',encoding='utf-8')

soup = BeautifulSoup(fp,'lxml') #将即将被解析的页面源码加载到该对象中

soup.p

soup.find('div',class_='song')

soup.find_all('div',class_='song')

soup.select('.tang')

soup.select('#feng')

soup.select('.tang > ul > li')

soup.select('.tang li')

li_6 = soup.select('.tang > ul > li')[6]

i_tag = li_6.i

i_tag.string

soup.find('div',class_='tang').text

soup.find('a',id="feng")['href']

提取数据

取文本:
- tag.string:标签中直系的文本内容(只提取直系内的文本)
- tag.text:标签中所有的文本内容
取属性:
- tag['attrName']

# 爬取三国演义整篇小说内容http://www.shicimingju.com/book/sanguoyanyi.html

url = 'http://www.shicimingju.com/book/sanguoyanyi.html'

page_text = requests.get(url,headers=headers).text

soup = BeautifulSoup(page_text,'lxml')

a_list = soup.select('.book-mulu > ul > li > a')

fp = open('sanguo.txt','w',encoding='utf-8')

for a in a_list:

    detail_url = 'http://www.shicimingju.com'+a['href']

    chap_title = a.string

    #对章节详情页的url发起请求,解析详情页中的章节内容

    detail_page_text = requests.get(detail_url,headers=headers).text

    soup = BeautifulSoup(detail_page_text,'lxml')

    chap_content = soup.find('div',class_="chapter_content").text

    fp.write(chap_title+':'+chap_content+'\n')

    print(chap_title,'爬取成功!')

fp.close()

爬虫-数据解析-bs4的更多相关文章

python爬虫--数据解析
数据解析什么是数据解析及作用概念:就是将一组数据中的局部数据进行提取作用:来实现聚焦爬虫数据解析的通用原理标签定位取文本或者属性正则解析正则回顾单字符: . : 除换行以外所有字符 ...
070.Python聚焦爬虫数据解析
一聚焦爬虫数据解析 1.1 基本介绍聚焦爬虫的编码流程指定url 基于requests模块发起请求获取响应对象中的数据数据解析进行持久化存储如何实现数据解析三种数据解析方式正则表达式 ...
python爬虫数据解析之BeautifulSoup
BeautifulSoup是一个可以从HTML或者XML文件中提取数据的python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式. BeautfulSoup是python爬虫三 ...
python爬虫数据解析的四种不同选择器Xpath，Beautiful Soup，pyquery，re
这里主要是做一个关于数据爬取以后的数据解析功能的整合,方便查阅,以防混淆主要讲到的技术有Xpath,BeautifulSoup,PyQuery,re(正则) 首先举出两个作示例的代码,方便后面举例 ...
Python网络爬虫数据解析的三种方式
request实现数据爬取的流程: 指定url 基于request发起请求获取响应的数据数据解析持久化存储 1.正则解析: 常用的正则回顾:https://www.cnblogs.com/wqz ...
爬虫-数据解析-xpath
xpath 解析模块安装 : pip install lxml xpath的解析原理实例化一个etree类型的对象,且将页面源码数据加载到该对象中需要调用该对象的xpath方法结合着不同形式的x ...
python爬虫数据解析之正则表达式
爬虫的一般分为四步,第二个步骤就是对爬取的数据进行解析. python爬虫一般使用三种解析方式,一正则表达式,二xpath,三BeautifulSoup. 这篇博客主要记录下正则表达式的使用. 正则表 ...
02 爬虫数据解析之re,xpath,beautifulsoup
一.正则匹配简单用法演示: 字符: print(re.findall(".","abccc31223dn哈哈")) ### . 匹配除了换行符以外的任意字符, ...
python爬虫数据解析之xpath
xpath是一门在xml文档中查找信息的语言.xpath可以用来在xml文档中对元素和属性进行遍历. 在xpath中,有7中类型的节点,元素,属性,文本,命名空间,处理指令,注释及根节点. 节点首先 ...

随机推荐

Smartbi制作报表教程：热销车型分类排名总表
今天Smartbi给大家分享热销车型分类排名总表这张移动端报表的制作过程. 制作工具:Smartbi云报表 Smartbi云报表是一款基于Office Excel的SAAS BI工具,支持在Exc ...
使用lrzsz在windows、Linux之间互传文件
使用xshell自带的传输太慢使用lrzsz进行文件互传: xshell远程linux 安装工具:yum install -y lrzsz,检查是否安装成功:rpm -qa |grep lrzsz ...
selenium+python自动化103-一闪而过的dialog如何定位
前言 web页面操作的时候经常会遇到一闪而过的 dialog 消息,这些提示语一般只出现了几秒,过后元素节点就会在DOM中消失了. 本篇讲解下用chrome 浏览器如何定位一闪而过的 dialog 消 ...
在用Scrapy进行爬虫时碰到的错误
1.module() takes at most 2 arguments (3 given) 解决方法:导入Spider类时,是from scrapy import Spider而不是from scr ...
php 命名规范
tp6微信公众号开发者模式token认证
微信公众号开发完整教程(一) PHP7.0版本,TP5.0框架技术标签: 微信公众号开发因为工作的需要,这一两年对微信公众号和小程序,项目制作的比较多.所以我才打算写一篇全面的 ...
注册接口（数字字典和api接口）
///////////////////////////////////////资源路由 ///////////////////////////////////////资源控制器 <?phpnam ...
微信小程序书简易支付
这里结合了上一篇的手机号登录接下来的实现功能 https://www.cnblogs.com/xiaoyantongxue/p/15472915.html 登录后进入课程选择页面 1:数据库填入数据 ...
Higncharts 制作
<html> <head> <meta charset="UTF-8" /> <title>Highcharts 教程 | 菜鸟教程 ...
打靶笔记-01-vulnhub-moneybox
打靶笔记-01-vulnhub-moneybox 本篇笔记根据苑老师视频进行学习记录 https://www.bilibili.com/video/BV1Lv411n7Lq/?spm_id_from= ...

爬虫-数据解析-bs4

1.数据解析

2.bs4 解析模块

标签定位:

提取数据

爬虫-数据解析-bs4的更多相关文章

随机推荐

热门专题