python解析库

BeautifulSoup示例：

#!/usr/bin/env python

# -*- coding: utf-8 -*-

# author: imcati

html_doc = """

<html><head><title>The Dormouse's story</title></head>

<body>

<p class="title"><b>The Dormouse's story</b><b>123</b></p>

<p class="story">Once upon a time there were three little sisters; and their names were

<a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

<a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

<a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

and they lived at the bottom of a well.</p>

<p class="story">...</p>

"""

from bs4 import BeautifulSoup

soup = BeautifulSoup(html_doc, 'html.parser')

#格式化输出对象内容

#print(soup.prettify())

#根据标签名获取整个标签，取第一个值

print(soup.a)

#获取标签的名字

print(soup.title.name)

#获取标签中的文本

print(soup.title.string)

#获取title标签的父标签

print(soup.title.parent.name)

#获取p标签的子标签

print(soup.p.contents)

#获取标签的属性值(两种方式)

print(soup.p["class"])

print(soup.p.attrs["class"])

#使用select、css选择器 类名前加.,id名前加#

print(soup.select("a"))

print(soup.select(".title"))

#获取内容

print(soup.select(".title")[0])

print(soup.select(".title")[0].get_text())

#获取属性值

print(soup.select(".title")[0].attrs["class"])

#获取p下面的子标签内容

print(soup.select('p > b')[1].get_text())

#使用find、findall进行查找 find返回第一个查找结果，find_all返回所有查找结果

print(soup.find('p',attrs={"class":"title"}))

print(soup.find_all('p',attrs={"class":"title"}))

输出：

<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>

title

The Dormouse's story

head

[<b>The Dormouse's story</b>, <b>123</b>]

['title']

['title']

[<a class="sister" href="http://example.com/elsie" id="link1">Elsie</a>, <a class="sister" href="http://example.com/lacie" id="link2">Lacie</a>, <a class="sister" href="http://example.com/tillie" id="link3">Tillie</a>]

[<p class="title"><b>The Dormouse's story</b><b>123</b></p>]

<p class="title"><b>The Dormouse's story</b><b>123</b></p>

The Dormouse's story123

['title']

123

<p class="title"><b>The Dormouse's story</b><b>123</b></p>
[<p class="title"><b>The Dormouse's story</b><b>123</b></p>]

PyQuery示例：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# author: imcati
from pyquery import PyQuery as pq
html = """
<html lang="en">
<head>
<title>PyQuery</title>
</head>
<body>
<ul id="container">
<li class="o1">MM</li>
<li class="o2 active">MN<a class='o22'>fad</a></li>
<li class="o3">GN</li>
</ul>
</body>
</html>
"""
#初始化为PyQuery对象
doc = pq(html)
print(type(doc))
print(doc)

输出：
<class 'pyquery.pyquery.PyQuery'>
<html lang="en">
<head>
<title>PyQuery</title>
</head>
<body>
<ul id="container">
<li class="o1">MM</li>
<li class="o2 active">MN<a class="o22">fad</a></li>
<li class="o3">GN</li>
</ul>
</body>
</html>

#将HTML文件初始化
#doc = pq(filename = './pyquery_demo.html') print(type(doc))
#print(doc)
#对网址响应进行初始化
#doc = pq(url='http://www.baidu.com')
#print(type(doc))
#print(doc)
#用css选择器来实现，如果要选id前面加#，如果选class，前面加.，如果选标签名，什么也不加
doc = pq(html)
# 根据标签
print(doc('title'))
print(doc('.o1'))

输出：
<title>PyQuery</title>

# 组合标签
print(doc('.o2.active')) #空格表示里面，没有空格表示整体
print(doc('.o2 .o22'))#空格表示里面，没有空格表示整体

输出：
<li class="o2 active">MN<a class="o22">fad</a></li>

# 伪类选择器
print(doc('li:nth-child(2)'))
# 根据标签内容获取标签
print(doc("li:contains('MM')"))

输出：
<li class="o2 active">MN<a class="o22">fad</a></li>

#利用find方法
print(doc.find('li'))
# 也可以用.children()查找直接子元素
container = doc.find('#container')
print(container.children())

输出：
<li class="o1">MM</li>
<li class="o2 active">MN<a class="o22">fad</a></li>
<li class="o3">GN</li>

#.parent()查找对象的父元素
object_2 = doc.find('.o2')
print(object_2.parent())

输出：
<ul id="container">
<li class="o1">MM</li>
<li class="o2 active">MN<a class="o22">fad</a></li>
<li class="o3">GN</li>
</ul>

# #.parents()祖先节点
object_2 = doc.find('.o2')
parent = object_2.parents('#container')
#当然也可以传入参数
print(parent)

输出：
<ul id="container">
<li class="o1">MM</li>
<li class="o2 active">MN<a class="o22">fad</a></li>
<li class="o3">GN</li>
</ul>

#.siblings()兄弟元素，即同级别的元素，不包括自己
object_2 = doc.find('.o2')
print(object_2.siblings())

输出：
<li class="o1">MM</li>
<li class="o3">GN</li>

# 遍历
lis = doc('li').items() #.items会是一个生成器 # print(type(lis))
for li in lis:
print(li)

输出：
<li class="o1">MM</li>

# filter() 根据类名、id名得到指定元素，例:
d=pq("<div><p id='1'>test 1</p><p id='2'>test 2</p></div>")
print(d('p').filter('#1')) #返回[<p#1>]
print(d('p').filter('#2')) #返回[<p.2>]
# eq(index) 根据给定的索引号得到指定元素
# 接上例，若想得到第二个p标签内的内容，则可以:
print (d('p').eq(1).html()) #返回test 2

输出：
<p id="1">test 1</p>
<p id="2">test 2</p>
test 2

# 获取属性值
o2 = doc.find('.o2')
print(o2.attr('class'))
# 获取文本值
o2 = doc.find('.o2')
print(o2.text())

输出：
o2 active
MNfad

python解析库的更多相关文章

python解析库之 XPath
1. XPath (XML Path Language) XML路径语言 2. XPath 常用规则: nodename 选取此节点的所有子节点 / 从当前 ...
python 中的json解析库
当一个json 数据很大的时候.load起来是很耗时的.python中常见的json解析库有cjson,simplesjson,json, 初步比较了一下, 对于loads来讲 simplejson ...
Python命令行解析库argparse
2.7之后python不再对optparse模块进行扩展,python标准库推荐使用argparse模块对命令行进行解析. 1.example 有一道面试题:编写一个脚本main.py,使用方式如下: ...
Python 爬虫解析库的使用 --- Beautiful Soup
知道了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了.而且对于一个网页来说,都有一定的特殊结构和层级关系,而且有很多节点都有id或class来做区分,所以借助它们 ...
python爬虫之解析库Beautiful Soup
为何要用Beautiful Soup Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式, 是一个 ...
Python爬虫之Beautiful Soup解析库的使用（五）
Python爬虫之Beautiful Soup解析库的使用 Beautiful Soup-介绍 Python第三方库,用于从HTML或XML中提取数据官方:http://www.crummv.com/ ...
【Python爬虫】PyQuery解析库
PyQuery解析库阅读目录初始化基本CSS选择器查找元素遍历获取信息 DOM操作伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现.语法与 jQuery 几乎 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
Python命令行解析库argparse（转）
原文:http://www.cnblogs.com/linxiyue/p/3908623.html 2.7之后python不再对optparse模块进行扩展,python标准库推荐使用argparse ...

随机推荐

【C#-程序时间计数器】如何计算某些步骤/过程耗时多少？
使用Stopwatch对象,TimeSpan对象 Stopwatch sw = new Stopwatch();//跑表,该类可以进行时间的统计命名空间using System.Diagnostic ...
Autel MaxiIM IM608：如何更新和一些评论
MaxiIM IM608是最先进的,因此是与众不同的一种钥匙编程和诊断工具,它将先进的钥匙编程,所有系统医学和先进的服务融合在一个主要基于10.1英寸触摸屏的机械人中.它配备了XP400关键计算机用户 ...
【CUDA 基础】4.3 内存访问模式
title: [CUDA 基础]4.3 内存访问模式 categories: - CUDA - Freshman tags: - 内存访问模式 - 对齐 - 合并 - 缓存 - 结构体数组 - 数组结 ...
vue子组件改变父组件的值
1 在父组件的coment绑定事件 <template> <div :class="classObj" class="app-wrapper" ...
【知识库】-数据库_MySQL 的七种 join
掘金作者:haifeisi 文章出处: MySQL 的七种 join Learn [已经过测试校验] 一.内连接二.左外连接三.右外连接四.左连接五.右连接六.全连接七.两张表中都没有出现 ...
js上传图片获取原始宽高
以vue上传图片为例: <template> <div> <input type="file" @change="uploadFile($e ...
C++入门经典-例7.8-const对象，标准尺寸
1:当建立一个对象之后,如果不希望它的任何数据发生改变,可以将其直接声明为const对象,例如: const 类名对象名 const对象必须初始化.我们可以调用它的数据和函数,但是不可以对他们进行修 ...
2 大O表示法
1.大O表示法表示程序的执行时间或占用空间随数据规模的增长趋势. 算法操作时间复杂度线性查找 O(n) 二分查找 O(logn) 无序数组插入 O(1) 无序数组删除 O(n) 有序数组插入 O ...
【2】PRD文档介绍
首先,我想说,题主是一个不严肃的人(严肃脸),所以每次干个啥事之前我都喜欢唠唠嗑,说说废话,沟通沟通感情,曾经以为自己将会成为一个幻想中的产品经理那般大展身手,作为非计算机专业出身的应届生,后来才发现 ...
cropper.js
https://github.com/fengyuanchen/cropper/blob/master/README.md Options See the available options of C ...

python解析库

python解析库的更多相关文章

随机推荐

热门专题