解析网页

主要使用到3种方法提取网页中的数据，分别是正则表达式、beautifulsoup和lxml。

使用正则表达式解析网页

正则表达式是对字符串操作的逻辑公式

.代替任意字符、 *匹配前0个或多个、 + 匹配前1个或多个、？前0次或1次、

^开头、 $ 结尾、（）匹配括号里面的表达式表示一组、 []表示一组字符、

\s匹配空白字符、 \S 匹配非空白字符、 \d[0-9] 、 \D[^0-9] 、

\w匹配字母数字[A-Z,a-z,0-9] 、 \W匹配不是字母数字

re.match方法：从字符串其实位置匹配一个模式，从起始位置匹配不了，match（）就返回none

语法：re.match(pattern,string,flags=0)

pattern是正则表达式

string为要匹配的字符串

flags控制正则表达式的匹配方式，是否需要区分大小写、多行匹配

m = re.match('www', 'www.baidu.com')

re.search方法:扫描整个字符串，找到第一个成功的匹配内容

m_search = re.search('com', 'www.baidu.com')

re.findall：可以找到所有的匹配

m_findall = re.findall('[0-9+]', '123156 www.baidu.com')

使用BeautifulSoup解析网页

BeautifulSoup安装

pip install bs4

解析器

python标准库 BeautifulSoup(r.text, 'html.parser')

lxmlHTML BeautifulSoup(r.text, 'lxml')

lxmlXML BeautifulSoup(r.text, 'xml')

#   CSS选择器

print(suop.select("div div header h1"))

print(suop.select("div>a"))

使用lxml解析网页

Xpath语法，是效率比较高的解析方法

lxml安装

pip install bs4

使用lxml

print("解析lxml")

#     解析lxml

html1 = html.etree.HTML(r.text)

title_list = html1.xpath('//h2[@class="dYInr JOzNE z2wCE"]/span/text()')

print(title_list)

提取网页源码数据也有三种方法，即XPath选择器、CSS选择器、BeautifulSoup的find（）方法

Xpath的选取方法

选取节点

谓语

通配符

取多个路径

Xpath轴

功能函数

总结

推荐使用beautifulsoup的find方法，熟悉xpath的可以选择lxml，面对复杂的网页使用正则表达比较浪费时间

beautifulsoup爬虫时间：房屋价格数据

headers = {

    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "

                  "Chrome/87.0.4280.88 Safari/537.36"

}

link = 'https://cs.anjuke.com/sale/?from=navigation'

r = requests.get(link, headers=headers)

soup = BeautifulSoup(r.text, 'html.parser')

hoouse_list = soup.find('div', property)

for house in hoouse_list:

    house_name = house.find('h3', class_="property-content-title-name").text.strip()

    house_price = house.find('span', class_="property-price-total-text").text.strip()

    house_junjia = house.find('p', class_="property-price-average").text.strip()

    house_jushi = house.find('p', class_="property-content-info-text property-content-info-attribute").text.strip()

    house_mianji = house.find('p', class_="property-content-info-text").contents[0].text

    house_loucen = house.find('p', class_="property-content-info-text").contents[1].text

    print('楼层：', house_loucen)

    print('面积：', house_mianji)

    print('居室：', house_jushi)

    print('均价：', house_junjia)

    print('名称：', house_name)

    print('价格：', house_price)

python网络爬虫-解析网页（六）的更多相关文章

python网络爬虫-静态网页抓取（四）
静态网页抓取在网站设计中,纯HTML格式的网页通常被称之为静态网页,在网络爬虫中静态网页的数据比较容易抓取,因为说有的数据都呈现在网页的HTML代码中.相对而言使用Ajax动态加载的玩个的数据不一定 ...
python网络爬虫-动态网页抓取（五）
动态抓取的实例在开始爬虫之前,我们需要了解一下Ajax(异步请求).它的价值在于在与后台进行少量的数据交换就可以使网页实现异步更新. 如果使用Ajax加载的动态网页抓取,有两种方法: 通过浏览器审查 ...
python网络爬虫笔记（六）
1.获取属性如果不存在就返回404,通过内置一系列函数,我们可以对任意python对象进行剖析,拿到其内部数据,但是要注意的是,只是在不知道对象信息的时候,我们可以获得对象的信息. 2.实例属性和类属 ...
python网络爬虫之解析网页的正则表达式(爬取4k动漫图片)[三]
前言 hello,大家好本章可是一个重中之重,因为我们今天是要爬取一个图片而不是一个网页或是一个json 所以我们也就不用用到selenium模块了,当然有兴趣的同学也一样可以使用selenium去 ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
假期学习【六】Python网络爬虫2020.2.4
今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范. 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 ...
Python网络爬虫
http://blog.csdn.net/pi9nc/article/details/9734437 一.网络爬虫的定义网络爬虫,即Web Spider,是一个很形象的名字. 把互联网比喻成一个蜘蛛 ...
《精通python网络爬虫》笔记
<精通python网络爬虫>韦玮著目录结构第一章什么是网络爬虫第二章爬虫技能概览第三章爬虫实现原理与实现技术第四章 Urllib库与URLError异常处理第五章正则 ...
如何利用Python网络爬虫抓取微信朋友圈的动态（上）
今天小编给大家分享一下如何利用Python网络爬虫抓取微信朋友圈的动态信息,实际上如果单独的去爬取朋友圈的话,难度会非常大,因为微信没有提供向网易云音乐这样的API接口,所以很容易找不到门.不过不要慌 ...

随机推荐

【九度OJ】题目1153：括号匹配问题解题报告
[九度OJ]题目1153:括号匹配问题解题报告标签(空格分隔): 九度OJ http://ac.jobdu.com/problem.php?pid=1153 题目描述: 在某个字符串(长度不超过1 ...
WPF自定义界面WindowChrome
WPF自定义界面WindowChrome 默认WPF的界面其实也还行,就是满足不了日渐增长的需求,界面还是需要有更高的自定义程度,包括标题栏也要能够塞下更多的操作控件. 默认窗口介绍新建WPF项目, ...
Codeforces 888C： K-Dominant Character（水题）
You are given a string s consisting of lowercase Latin letters. Character c is called k-dominant iff ...
CS5211替代兼容PS8625|普瑞PS8625替代方案|CapstoneCS5211
PS8625是一个DP显示端口到LVDS转换器芯片,利用GPU和显示端口(DP) 或嵌入式显示端口(eDP) 输出和接受LVDS输入的显示面板.PS8625实现双通道DP输入,双链路LVDS输出.P ...
docker容器跨主机网络overlay
前提:已部署好docker服务服务预计部署情况如下10.0.0.134 Consul服务10.0.0.135 host1 主机名mcw510.0.0.134 host2 主机名mcw6host1与 ...
Java EE数据持久化框架 • 【第4章 MyBatis动态SQL】
全部章节 >>>> 本章目录 4.1 MyBatis动态标签 4.1.1 MyBatis动态标签介绍 4.1.2 < if >标签 4.1.3 update语 ...
Hexo博客部署到腾讯云服务器全过程（Nginx,证书,HTTPS）,你要的这里都有
背景说来也惭愧,博客已经搭建很久了,一直免费的部署在 Coding 和 Github Pages 上,前者迁移到腾讯云 Serverless,导致原有的配置始终有问题,没时间仔细研究,刚好腾讯服务器 ...
使用docker-compose部署Kafka集群
之前写过Kafka集群的部署,不过那是基于宿主机的,地址:Kafka基础教程(二):Kafka安装和Zookeeper一样,有时想简单的连接Kafka用一下,那就需要开好几台虚拟机,如果Zookee ...
MongoDB与微服务
1. 微服务的优势 * 开发速度快 * 变化响应快 * 易维护 * 扩容简单2. 微服务架构设计要素 * 服务解耦(Decouple) * HTTP API - 简单接口(Dumb Pipes) * ...
nano 编辑器快速入门
# 打开或新建一个文件 $ nano tmp.txt # 常用组合按键 ^G:获取帮助 ^X:退出,如果文件有改定会提示是否保存 ^O:保存文件内容 ^R:读取其他文件的内容,放入到当前文件中 ^W: ...

python网络爬虫-解析网页（六）