还没被玩坏的robobrowser(4)——从页面上抓取感兴趣的内容

背景

本节的知识实际上是属于Beautiful Soup的内容。

robobrowser支持Beautiful Soup，一般来说通过下面3个方法获取页面上感兴趣的内容

find
find_all
select

这一节主要通过一些例子来讲解这几个方法

预备知识

一般来说学习Beautiful Soup是需要了解过滤器这个概念的。不过为了让大家能够容易理解，这里暂时屏蔽过滤器的知识，感兴趣的同学可以去官网学习一下。

通过例子学习

这一节里我们的例子还是http://itest.info/courses/2，python selenium自动化测试班这个页面。

find方法

find方法是返回页面上符合条件的第1个元素。

#coding: utf-8

import re

from robobrowser import RoboBrowser

url = 'http://itest.info/courses/2'

b = RoboBrowser(history=True)

  b.open(url)

# 通过tag name抓取

#<title>重定向科技</title>

  title = b.find('title')

  print title.text

# 通过属性(attribute)抓取

# <img id="logo-header" src="/assets/logo-0648b8fb283a9802457da74f0c157b12.png" />

  img = b.find(id='logo-header')

  print img['src']

# <a href="/courses/4">android测试工具自制班</a>

  print b.find(href='/courses/4').text

# <li class="active">python selenium自动化测试班</li>

  print b.find(class_='active', text=re.compile('python')).text

find_all方法

find_all方法的用法跟find基本相同，但是find_all会返回所有符合条件的tag的集合(ResultSet)。

#coding: utf-8

import re

from robobrowser import RoboBrowser

url = 'http://itest.info/courses/2'

b = RoboBrowser(history=True)

  b.open(url)

#页面上所有的a

  all_links = b.find_all('a')

  for link in all_links:

    print link.text

# 页面上所有class是container的div

    divs = b.find_all(class_='container')

    print divs

# limit 参数控制返回的元素个数

# 页面上前2个p

    first_two_p = b.find_all('p', limit=2)

    print first_two_p

# 如果第1个参数是列表则返回相匹配的集合

# 页面上所有的meta和title

    print b.find_all(['meta', 'img'])

select方法

select方法是我最喜欢的方法，该方法支持css选择器(可惜不是全部)，返回的是list。

#coding: utf-8

import re

from robobrowser import RoboBrowser

url = 'http://itest.info/courses/2'

b = RoboBrowser(history=True)

  b.open(url)

#页面上所有的a

  all_links = b.select('a')

  for link in all_links:

    print link.text

# 页面上所有class是container的div

    divs = b.select('.container')

    print len(divs)

其他技巧

找到页面上所有具有id属性的元素b.find_all(id=True)
不递归查找元素。也就是说只在的直接子后代中查找b.find('p', recursive=False)

文本版权归乙醇所有，欢迎转载，但请标明出处。

下一节：Beautiful Soup的过滤器

还没被玩坏的robobrowser(4)——从页面上抓取感兴趣的内容的更多相关文章

还没被玩坏的robobrowser(8)——robobrowser的实现原理
背景学习使用工具实际上不难,不过我们应该通过阅读工具源码来提升自己的水平. 多读代码,读好代码.很不错,robobrowser的代码简单易懂,值得学习. 预备知识源码地址一起其实是从browse ...
还没被玩坏的robobrowser(7)——表单操作
背景有一些站点是需要登录之后才能抓取内容的,另外做web测试的时候登录是家常便饭. 这一节里我们就以登陆testerhome为例,讲解一下robobrowser中form的操作. 预备知识 get_ ...
还没被玩坏的robobrowser(6)——follow_link
背景在做spider的时候,我们经常会有点击链接的需求. 考虑这样的一个简单spider:获取qq.com主页上的今日话题中的内容. 一般思路是先去qq.com首页上找到今日话题的链接,然后点击这个 ...
还没被玩坏的robobrowser(3)——简单的spider
背景做一个简单的spider用来获取python selenium实战教程的一些基本信息.因为python selenium每年滚动开课,所以做这样一个爬虫随时更新最新的开课信息是很有必要的. 预备 ...
还没被玩坏的robobrowser(1)-简介
今天偶然发现了一个很有意思的python库——robobrowser.简单的看了一下,觉得这个东东作为轻量的爬虫还是很适合的.另外这个做一些简单的web测试也未尝不可. 好了,那么问题来了. 什么是r ...
还没被玩坏的robobrowser(5)——Beautiful Soup的过滤器
背景本节的知识还是属于Beautiful Soup的内容. Beautiful Soup的find和find_all方法非常强大,他们支持下面一些类型的过滤器. 字符串最简单的过滤器是字符串.在搜 ...
还没被玩坏的robobrowser(2)——安装及快速开始
安装robobrowser 注意:这里假设你知道如何使用pip安装python的库的知识,如果你不了解这一块的话,点这里获取帮助. 强烈推荐使用pip安装. pip install robobrows ...
玩转FPGA边缘视觉——4k视频图像抓取
随着现代图像及视频处理技术的不断发展,人们对图像处理提出了新的要求,最近几年,图像的分辨率和扫描频率都有了较大范围的提升,1080P分辨率的视频已经非常流行,2K甚至4K分辨率的图像也在火热发展中. ...
玩爽了！直接在Chrome里抓取数据
一个小测试发现可以自动做题,于是想通过脚本的方式看能不能获取相应的题库,刚好可以学习一下JS异步操作.花了一天时间,总算跑顺利了,遇到了不少坑.记录下来分享. 1.JS如何顺序执行 JS有强大的异步操 ...

随机推荐

Xcode missing file or .png is missing from working copy
当不小心在工程文件中删掉文件时.有可能会提示 .xxx is missing from working copy 有可能是SVN引起的.删掉这个文件就好了如果是单个文件.进入Terminal 相 ...
url文件的格式
[DEFAULT]BASEURL= [InternetShortcut]URL=WorkingDirectory=ShowCommand=IconIndex=IconFile=Modified=Hot ...
微信小程序 - 分包加载（分包使用）
使用分包(建议主包添加跳转路径,分包放内容) 在app.json配置"subpackages" 在pages同级目录新建文件夹以及文件打包原则声明 subpackages 后, ...
jstat 使用日志
如何判断JVM是否存在内存问题呢?如何判断JVM垃圾回收是否正常?一般的top指令基本上满足不了这样的需求,因为它主要监控的是总体的系统资源,很难定位到java应用程序. Jstat是JDK自带的一个 ...
Angularjs乱记
http://www.cnblogs.com/floor/p/6652313.html 在指令中使用filter DI规则 AngularJS注入规则数据绑定 http://www.cnblogs. ...
mahout基于Hadoop的CF代码分析(转）
来自:http://www.codesky.net/article/201206/171862.html mahout的taste框架是协同过滤算法的实现.它支持DataModel,如文件.数据库.N ...
Executor并发框架--线程池,ThreadToolExecutor初步
Executor存在的目的是提供一种将"任务提交"与"任务如何运行"分离开来的机制.虽然只有一个方法,但是却为灵活且强大的异步任务执行框架提供了基础.它提供了一 ...
PCI(Payment Card Industry)合规
PCI-DSS(Payment Card Industry-Data Security Standard) 1.构建并维护安全的网络 2.保护持卡人数据 3.维护漏洞管理程序 4.执行严格的访问控制 ...
〖Linux〗Kubuntu文件管理器单例的设置（即：一个工作区只一个文件管理器）
有没有一种,情况: 1. 程序A打开了文件管理器: 2. 程序B又打开了文件管理器: 导致开了两个文件管理器,太不舒服了: 搜索下 kubuntu dolphin single instance,果然 ...
三种常用的MySQL建表语句
MySQL建表语句是最基础的SQL语句之一,下面就为您介绍最常用的三种MySQL建表语句,如果您对MySQL建表语句方面感兴趣的话,不妨一看. 1.最简单的: CREATE TABLE t1( ...