网页解析--BeautifulSoup练习

 # coding = utf-8

 # BeautifulSoup 主要功能是解析提取HTML数据

 # re lxml bs4

 # pip install Beautifulsoup4

 # from bs4 import BeautifulSoup

 html = '''

 <html><head><title>The Dormouse's story</title></head>

 <p class="title"><b>The Dormouse's story</b></p>

 <p class="story">Once upon a time there were three little sisters; and their names were

 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

 and they lived at the bottom of a well.</p>

 <p class="story">...</p>

 '''

 ############################################################################

 # BeautifulSoup部分

 #############################################################################

 # soup = BeautifulSoup(html, 'lxml')

 # 四大对象种类：Tag NavigableString Beautifulsoup Comment

 # print(soup.a)  # 获取a标签

 # print(soup.a.get('href'))   # 取a标签的属性,获得超链接

 # print(soup.a.text)  # 获取a标签下的文本，若a下有子标签，可能获取不到

 # print(soup.a.string)  # 获取a标签（包含a下的子标签）下的文本

 # 搜索文档：find  find_all 按照一定的过滤条件进行匹配

 # 字符串

 # print(soup.find_all('a'))  # 匹配整个文档中的a标签

 # print(soup.find_all(attrs={'class': 'title'})) # 匹配class为title的标签

 # #正则表达式

 # import re

 # print(soup.find_all(re.compile('^p')))  # 匹配以p开头的标签

 # print(soup.find_all(re.compile('y$')))  # 匹配以y结尾的标签

 # print(soup.find_all(re.compile('t')))  # 匹配包含t的标签

 # 列表

 # for tag in soup.find_all(['a', 'b']):  # 匹配a标签，b标签

 #     print(tag)

 # for tag in soup.find_all('p', class_='story'):  # 匹配class=story的p标签

 #     print(tag)

 # # 方法  给find_all传入一个方法作为过滤条件

 # def has_class_but_no_id(tag):

 #     """

 #     定义一个判断有class属性但是没有id属性的方法，作为过滤条件

 #     """

 #     return tag.has_attr('class') and not tag.has_attr('id')

 #

 # for tag in soup.find_all(has_class_but_no_id):

 #     print(tag)

 # css选择器

 # print(soup.select('title'))   # 通过标签名查找

 # print(soup.select('.sister')) # 通过class名查找

 # print(soup.select('#link1'))  # 通过id名查找

 # print(soup.select('p #link2'))  # 组合查找，id为link2的p标签

 # > 只能够一级一级向下查找

 # print(soup.select('body > p .sister')) # 查找body下类名为sister的p

 # 百度搜索python，对返回页面进行属性查找

 # import requests

 # url = 'http://www.baidu.com/s?wd=python'

 # response = requests.get(url)  # 获取的数据是网页源代码，未经过js渲染

 #

 # soup = BeautifulSoup(response.text, 'lxml')

 # 查找返回页面搜索到的结果

 # items = soup.find_all('div', class_='result c-container ')

 # 打印搜索结果

 # for item in items:

 #     print(item.select('h3 > a')[0].get('href')  # 取a标签

 #     print(item.select('h3 > a')[0].get_text())

 #################################################################################

 # xpath 部分

 # 通配符  /  //  @  # .  ..

 #   /表示从当前节点匹配  //整个文档匹配  @选取属性 *

 ########################################################################################

 html = '''

 <html><head><title>The Dormouse's story</title></head>

 <p class="title"><b>The Dormouse's story</b></p>

 <p class="story">Once upon a time there were three little sisters; and their names were

 <a href="http://example.com/elsie" class="sister" id="link1">Elsie</a>,

 <a href="http://example.com/lacie" class="sister" id="link2">Lacie</a> and

 <a href="http://example.com/tillie" class="sister" id="link3">Tillie</a>;

 and they lived at the bottom of a well.</p>

 <p class="story">...</p>

 '''

 # from lxml import etree

 # e = etree.HTML(html)

 # for i in e.xpath('//p'):  # 整个文档中搜索p标签

 #     # print(i.xpath('string(.)'))  # 获取当前标签下所有文本（标签下套标签），包括下面子标签的文本

 #     print(i.text) # 匹配当前标签下的文本内容，不包含子标签

 """

 # for i in e.xpath('//p/@class'):  # 选取p的class属性

 # for i in e.xpath('//p[@class=title]'):  # 搜索class=title的p标签

 //title[@*]  匹配所有有属性的title标签

 """

 # 百度搜索python，用xpath查找

 import requests

 from lxml import etree

 url = 'http://www.baidu.com/s?wd=python'

 response = requests.get(url)  # 获取的数据是网页源代码

 tree = etree.HTML(response.text)

 # 查找返回页面搜索到的结果

 items = tree.xpath('//div[@class="result c-container "]')

 for item in items:

     # print(item.xpath('h3/a/@href'))

     print(item.xpath('h3/a')[0].xpath('string(.)'))

网页解析--BeautifulSoup练习的更多相关文章

关于爬虫中常见的两个网页解析工具的分析 —— lxml / xpath 与 bs4 / BeautifulSoup
http://www.cnblogs.com/binye-typing/p/6656595.html 读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可 ...
【Python爬虫】BeautifulSoup网页解析库
BeautifulSoup 网页解析库阅读目录初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素基本使用标签选择器节点操作 ...
转：Python网页解析：BeautifulSoup vs lxml.html
转自:http://www.cnblogs.com/rzhang/archive/2011/12/29/python-html-parsing.html Python里常用的网页解析库有Beautif ...
第6章网页解析器和BeautifulSoup第三方插件
第一节网页解析器简介作用:从网页中提取有价值数据的工具python有哪几种网页解析器?其实就是解析HTML页面正则表达式:模糊匹配结构化解析-DOM树:html.parserBeautiful So ...
python网络爬虫之解析网页的BeautifulSoup(爬取电影图片)[三]
目录前言一.BeautifulSoup的基本语法二.爬取网页图片扩展学习后记前言本章同样是解析一个网页的结构信息在上章内容中(python网络爬虫之解析网页的正则表达式(爬取4k动漫图 ...
网页解析：Xpath 与 BeautifulSoup
1. Xpath 1.1 Xpath 简介 1.2 Xpath 使用案例 2. BeautifulSoup 2.1 BeautifulSoup 简介 2.2 BeautifulSoup 使用案例 1) ...
Beautifulsoup网页解析——爬取豆瓣排行榜分类接口
我们在网页爬取的过程中,会通过requests成功的获取到所需要的信息,而且,在返回的网页信息中,也是通过HTML代码的形式进行展示的.HTML代码都是通过固定的标签组合来实现页面信息的展示,所以,最 ...
Python网页解析
续上篇文章,网页抓取到手之后就是解析网页了. 在Python中解析网页的库不少,我最开始使用的是BeautifulSoup,貌似这个也是Python中最知名的HTML解析库.它主要的特点就是容错性很好 ...
Python 网页解析器
Python 有几种网页解析器? 1. 正则表达式 2.html.parser (Python自动) 3.BeautifulSoup(第三方)(功能比较强大) 是一个HTML/XML的解析器 4.lx ...

随机推荐

MySQL、Oracle、SqlServer的区别
鉴于和数据库打交道日益频繁,遂决定写一篇关于Oracle.SqlServer.MySQL区别的个人观点. MySQL是大学时的主要学习对象,但刚参加工作时转到了SqlServer,现在主要接触的是Or ...
第四十章 POSIX条件变量
条件变量当一个线程互斥地访问某个变量时,它可能发现在其它线程改变状态之前,它什么也做不了例如一个线程访问队列时,发现队列为空,它只能等待,只到其它线程将一个节点添加到队列中.这种情况就需要用到条件 ...
AXI4-Stream协议总结与分析
一.协议介绍 1.AXI4_Stream:适用于高速数据流,去掉了地址项,允许无限制的数据突发传输.除了总线时钟和总线复位,其他的接口信号都是以字母T开头. 2.信号接口描述: (1).ACLK--- ...
Mybatis:配置解析
配置解析 mybatis-config.xml(Mybatis核心配置文件)深深影响了Mybatis行为的设置和属性信息. 能配置的的内容当然,并不是所有都是我们经常使用到的,下面选择经常使用的配 ...
[考试反思]1109csp-s模拟测试106：撞词
(撞哈希了用了模拟测试28的词,所以这次就叫撞词吧) 蓝色的0... 蓝色的0... 都该联赛了还能CE呢... 考试结束前15分钟左右,期望得分300 然后对拍发现T2伪了写了一个能拿90分的垃圾随 ...
7.30 NOIP模拟10
T1.辣鸡考试的时候竟然被我以“麻烦”弃掉了,赛后发现这题好水啊,直接sort一下寻找四周即可. T2.模板考试时期望得分70,实际得分5 首先看到这种题基本就是线段树,我们以时间为下标,对每一个 ...
手把手教你定制标准Spring Boot starter，真的很清晰
写在前面我们每次构建一个 Spring 应用程序时,我们都不希望从头开始实现具有「横切关注点」的内容:相反,我们希望一次性实现这些功能,并根据需要将它们包含到任何我们要构建的应用程序中横切关注点 ...
linux下驱动模块编译步骤
本文将直接了当的带你进入linux的模块编译.当然在介绍的过程当中,我也会添加一些必要的注释,以便初学者能够看懂.之所以要写这篇文章,主要是因为从书本上学的话,可能要花更长的时间才能学会整个过程,因为 ...
2019年10月13日 linux习题 wangqingchao
1. GUN的含义是: GNU's Not UNIX . 2. Linux一般有3个主要部分:内核.命令解释层.实用工具. 3.POSIX是可携式操作系统接口的缩写,重点在规范核心与应用程序之间的接口 ...
jsoup爬虫实战心得
1.heder很重要,一切尽在header中.尤其cookie,useragent. 2.对于加密的连接,查看js加密过程并试着通过java或你正在使用的语言去实现 3.查看在跳转之前前端发起的关键请 ...

网页解析--BeautifulSoup练习

网页解析--BeautifulSoup练习的更多相关文章

随机推荐

热门专题