Python爬虫的三种数据解析方式

数据解析方式　　

　　`- 正则`

　　`- xpath`

　　`- bs4`

数据解析的原理：

标签的定位
提取标签中存储的文本数据或者标签属性中存储的数据

正则

# 正则表达式

 单字符：

        . : 除换行以外所有字符

        [] ：[aoe] [a-w] 匹配集合中任意一个字符

        \d ：数字  [0-9]

        \D : 非数字

        \w ：数字、字母、下划线、中文

        \W : 非\w

        \s ：所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。

        \S : 非空白

    数量修饰：

        * : 任意多次  >=0

        + : 至少1次   >=1

        ? : 可有可无  0次或者1次

        {m} ：固定m次 hello{3,}

        {m,} ：至少m次

        {m,n} ：m-n次

    边界：

        $ : 以某某结尾

        ^ : 以某某开头

    分组：

        (ab)

    贪婪模式： .*

    非贪婪（惰性）模式： .*?

    re.I : 忽略大小写

    re.M ：多行匹配

    re.S ：单行匹配

    re.sub(正则表达式, 替换内容, 字符串)

#爬取糗事百科中所有的糗图图片数据

import os

import requests

import re

from urllib import request

if not os.path.exists('./qiutu'):

    os.mkdir('./qiutu')

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

url = 'https://www.qiushibaike.com/pic/'

page_text = requests.get(url=url,headers=headers).text

ex = '<div class="thumb">.*?<img src="(.*?)" alt.*?</div>'

img_url = re.findall(ex,page_text,re.S)

for url in img_url:

    url = 'https:'+url

    img_name = url.split('/')[-1]

    img_path = './qiutu/'+img_name

    request.urlretrieve(url,img_path)

    print(img_name,'下载成功！！！')

bs4解析

解析原理：
- 实例化一个Beautifulsoup的对象，且将页面源码数据加载到该对象中
- 使用该对象的相关属性和方法实现标签定位和数据提取
环境的安装：
- pip install bs4
- pip install lxml
实例化Beautifulsoup对象
- BeautifulSoup(page_text,'lxml'):将从互联网上请求到的页面源码数据加载到该对象中
- BeautifulSoup(fp,'lxml')：将本地存储的一样页面源码数据加载到该对象中

属性

soup.a.attrs 返回一字典，里面是所有属性和值

soup.a['href'] 获取href属性

文本

soup.a.string

soup.a.text

soup.a.get_text()

find方法

#find只能找到符合要求的第一个标签，他返回的是一个对象

soup.find('a')

soup.find('a', class_='xxx')

soup.find('a', title='xxx')

soup.find('a', id='xxx')

soup.find('a', id=re.compile(r'xxx'))

find_all

#返回一个列表，列表里面是所有的符合要求的对象

soup.find_all('a')

soup.find_all('a', class_='wang')

soup.find_all('a', id=re.compile(r'xxx'))

soup.find_all('a', limit=2)   #提取出前两个符合要求的a

select

#选择，选择器 css中

常用的选择器

标签选择器、id选择器、类选择器

层级选择器**

div h1 a      后面的是前面的子节点即可

div > h1 > a  后面的必须是前面的直接子节点

属性选择器

input[name='hehe']

select('选择器的')

返回的是一个列表，列表里面都是对象

find find_all select不仅适用于soup对象，还适用于其他的子对象，如果调用子对象的select方法，那么就是从这个子对象里面去找符合这个选择器的标签

#爬取古诗文网的三国演义小说

url = 'http://www.shicimingju.com/book/sanguoyanyi.html'

page_text = requests.get(url=url,headers=headers).text

#数据解析：标题和url

soup = BeautifulSoup(page_text,'lxml')

li_list = soup.select('.book-mulu > ul > li')

fp = open('./sanguo.txt','w',encoding='utf-8')

for li in li_list:

    title = li.a.string

    detail_url = 'http://www.shicimingju.com'+li.a['href']

    #单独对详情页发起请求获取源码数据

    detail_page_text = requests.get(url=detail_url,headers=headers).text

    soup = BeautifulSoup(detail_page_text,'lxml')

    content = soup.find('div',class_="chapter_content").text

    fp.write(title+'\n'+content+'\n')

    print(title,':下载成功！')

fp.close()

xpath解析：

- 解析效率比较高

- 通用性最强的

- 环境安装：pip install lxml

- 解析原理：

    - 实例化一个etree对象且将即将被解析的页面源码数据加载到该对象中

    - 使用etree对象中的xpath方法结合着xpath表达式进行标签定位和数据提取

- 实例化etree对象

    - etree.parse('本地文件路径')

    - etree.HTML(page_text)

#爬取全国城市名称

import requests

from lxml import etree

# UA伪装

headers = {

    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36'

}

url = 'https://www.aqistudy.cn/historydata/'

page_text = requests.get(url=url,headers=headers).text

tree = etree.HTML(page_text)

# hot_city = tree.xpath('//div[@class="bottom"]/ul/li/a/text()')

# all_city = tree.xpath('//div[@class="bottom"]/ul/div[2]/li/a/text()')

# all_city

tree.xpath('//div[@class="bottom"]/ul/div[2]/li/a/text() | //div[@class="bottom"]/ul/li/a/text()'

Python爬虫的三种数据解析方式的更多相关文章

python网络爬虫数据中的三种数据解析方式
一.正则解析常用正则表达式回顾: 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字.字母.下划线 ...
JSON三种数据解析方法（转）
原 JSON三种数据解析方法 2018年01月15日 13:05:01 zhoujiang2012 阅读数:7896 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blo ...
Docker 数据管理-三种数据mount方式
可以在Container可写层存储数据,但是有三个缺点: 当Container销毁时,数据不能持久保存. Container的可写层和Container所在的主机紧耦合,不容易将数据移动到其他地方. ...
05.Python网络爬虫之三种数据解析方式
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python爬虫之三种数据解析方式
一.引入二.回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需 ...
05，Python网络爬虫之三种数据解析方式
回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指定数据 ...
《Python网络爬虫之三种数据解析方式》
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式 (xpath, 正则, bs4)
引入回顾requests实现数据爬取的流程指定url 基于requests模块发起请求获取响应对象中的数据进行持久化存储其实,在上述流程中还需要较为重要的一步,就是在持久化存储之前需要进行指 ...
Python网络爬虫之三种数据解析方式
1. 正则解析正则例题 import re # string1 = """<div>静夜思 # 窗前明月光 # 疑是地上霜 # 举头望明月 # 低头思故乡 ...

随机推荐

EasyNVR摄像机网页直播之问题解决：Failed:SYSTEM\CurrentCont......\Application\EasyNVR_Service registry key already
背景分析经常使用EasyNVR产品的用户都知道,作为音视频行业互联网直播产品,EasyNVR主要功能在于通过RTSP/ONvif协议,接入前端音视频采集设备,通过EasyNVR软硬件产品将拉取过来的 ...
PS弧形边缘的去黑色背景色
按照理论来说,纯色的字体加上纯色的背景,然后保存成png文件,然后用色彩范围选择纯色的背景,去掉背景,这样应该能得到原来设置的纯色的字体,但实际测试后不是这样的.如果是矩形等,是纯色,但是Photos ...
python测试工具nosetests
今天在github上找东西,找到个工具是python写的,但是需要安装nosetests,因此了解了下nosetests python除了unittest,还有nosetests,使用更快捷 nose ...
机器学习技法实现（一）：AdaBoost- Decision Stump （AdaBoost - 决策树的基于Matlab的实现）
经过前面对AdaBoost的总结,下面要基于Matlab实现AdaBoost-Stump进行二维平面数据点的分类的实验. 一. 实验原理参看 http://blog.csdn.net/lg12591 ...
jvm面试常见题
背景:jvm相关题目面试必问,后面要深入的进行总结. JVM 面试知识整理 jvm调优命令调优工具 Minor GC ,Full GC 触发条件 Minor GC触发条件:当Eden区满时,触发Mi ...
springboot添加servlet的两种方法
1.是自己继承HttpServlet. 那么在类上面加 @WebServlet(loadOnStartup=1,urlPatterns={"/xxxServlet"}) 就可以了 ...
vue中指令绑定的v-if逻辑结构
 <div id="app2"> <p v-if="seen"> <!-- 给p标签绑定指令 ...
Python的运算符和编码
1.格式化输出 1.有两种方式: 1.1.%的方式 addr = "我家住在%s" % ("黄土高坡") 1.2.format()的方式 addr = &quo ...
python技巧 — 整合 User-Agent 大全汇总
一.IE 浏览器而IE各个版本典型的userAgent如下:Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)Mozilla/4.0 (compat ...
windows 开始→运行→命令集锦
windows 开始→运行→命令集锦来源于网络,侵权请通知我删除命令说明 vwinver 检查Windows版本 wmimgmt.msc 打开windows管理体系结构(WMI) wupdmgr ...

Python爬虫的三种数据解析方式

数据解析方式

- 正则

- xpath

- bs4

数据解析的原理：

正则

bs4解析

解析原理：

环境的安装：

实例化Beautifulsoup对象

find方法

find_all

select

xpath解析：

Python爬虫的三种数据解析方式的更多相关文章

随机推荐

热门专题

数据解析方式　　

　　`- 正则`

　　`- xpath`

　　`- bs4`