前言

requests库的好，只有用过的人才知道，最近这个库的作者又出了一个好用的爬虫框架requests-html。之前解析html页面用过了lxml和bs4,

requests-html集成了一些常用爬虫库的优点，依然是为人类服务：HTML Parsing for Humans。

目前只支持python3.6

相关安装包版本

requests 2.22.0
requests-html 0.10.0
requests-toolbelt 0.8.0

环境准备

requests-html的GitHub地址https://github.com/kennethreitz/requests-html,使用pip就能直接安装了。

pip install requests-html==0.10.0

该库旨在使解析HTML（例如，抓取Web）尽可能简单直观, 有以下优势：

完整的JavaScript支持！
CSS Selectors（又名jQuery风格，感谢PyQuery）。
XPath Selectors，对于胆小的人来说。
模拟用户代理（如真实的Web浏览器）。
自动跟踪重定向。
连接池和cookie持久性。
令人欣喜的请求体验，具有神奇的解析能力。
异步支持

抓页面url地址

先发个get请求，返回response对象，通过r.html.links获取页面的全部链接，包含一些相对路径的地址，如果只想获取绝对路径的地址，可以用r.html.absolute_links

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://python.org/')

# 获取页面上的所有链接

all_links = r.html.links

print(all_links)

# 绝对路径链接

all_absolute_links = r.html.absolute_links

print(all_absolute_links)

运行结果, 返回内容太多，省略了一部分：

{'http://pycon.blogspot.com/', '/community/', 'http://python.org/dev/peps/', '/events/python-events/831/', , 'http://www.scipy.org'}

{'http://pycon.blogspot.com/', 'https://www.python.org/dev/',  'https://wiki.qt.io/PySide', 'https://www.python.org/events/python-events/817/'}

从返回的结果可以看出，返回的是set集合，会自动的去除重复的链接地址

xpath定位

用过lxml库的小伙伴应该知道https://www.cnblogs.com/yoyoketang/p/9661273.html，lxml可以支持xpath查找元素对象，requests-html也可以完美的支持xpath

接下来我需要获取目标网站：https://www.cnblogs.com/yoyoketang/tag/django/，获取所有的文章标题，xpath语法：.//*[@id='myposts']/div/div/a

参考代码

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://www.cnblogs.com/yoyoketang/tag/django/')

# 只获取第一个

f = r.html.xpath(".//*[@id='myposts']/div/div/a", first=True).text

print(f)

# 获取全部

all = r.html.xpath(".//*[@id='myposts']/div/div/a")

for i in all:

    print(i.text)            # 获取文本

    print(i.absolute_links)  # 获取链接

运行结果

python测试开发django-49.allow_tags和mark_safe

python测试开发django-49.allow_tags和mark_safe

{'https://www.cnblogs.com/yoyoketang/p/10659137.html'}

python测试开发django-48.xadmin上传图片django-stdimage

{'https://www.cnblogs.com/yoyoketang/p/10655601.html'}

python测试开发django-47.xadmin上传图片和文件

{'https://www.cnblogs.com/yoyoketang/p/10653878.html'}

xpath方法返回是一个list，加上 first=True参数返回第一个结果

css定位支持

requests-html同样支持CSS Selector的方法，把上面案例用css定位也可以实现同样效果

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://www.cnblogs.com/yoyoketang/tag/django/')

# 只获取第一个 css语法

f = r.html.find(".PostList>div>a", first=True).text

print(f)

# 获取全部 css语法

all = r.html.find(".PostList>div>a")

for i in all:

    print(i.text)          # 获取文本

    print(i.absolute_links)  # 获取链接

其它方法

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://www.cnblogs.com/yoyoketang/tag/django/')

about = r.html.find(".PostList>div", first=True)

# 1.获取文本

print(about.text)

# 2.获取html内容

print(about.html)

# 3.获取全部属性

print(about.attrs)

# 4.获取链接

print(about.absolute_links )

# 5.搜索文字

print(about.search('python测试开发{}和mark_safe')[0])

# 6.继续定位子元素

print(about.find('a'))  # 返回list element对象

# 7.containing 模糊匹配 只包含'django'文本的对象

a = about.find('a', containing='django')

print(a)

运行结果

python测试开发django-49.allow_tags和mark_safe

<div class="postTitl2"><a href="https://www.cnblogs.com/yoyoketang/p/10659137.html" id="PostsList1_rpPosts_TitleUrl_0">python测试开发django-49.allow_tags和mark_safe</a></div>

{'class': ('postTitl2',)}

{'https://www.cnblogs.com/yoyoketang/p/10659137.html'}

django-49.allow_tags

[<Element 'a' href='https://www.cnblogs.com/yoyoketang/p/10659137.html' id='PostsList1_rpPosts_TitleUrl_0'>]

[<Element 'a' href='https://www.cnblogs.com/yoyoketang/p/10659137.html' id='PostsList1_rpPosts_TitleUrl_0'>]

这些只是一些基本的功能，requests-html还可以支持JavaScript渲染页面，看下一篇python接口自动化29-requests-html支持JavaScript渲染页面

python接口自动化28-requests-html爬虫框架的更多相关文章

python接口自动化：requests+ddt+htmltestrunner数据驱动框架
该框架分为四个包:xc_datas.xc_driven.xc_report.xc_tools. xc_datas:存放数据,xc_driven:存放执行程序,xc_report:存放生成的报告,xc_ ...
python接口自动化测试之requests库详解
前言说到python发送HTTP请求进行接口自动化测试,脑子里第一个闪过的可能就是requests库了,当然python有很多模块可以发送HTTP请求,包括原生的模块http.client,urll ...
Python接口自动化【requests处理Token请求】
首先说一下使用python模拟登录或注册时,对于带token的页面怎么登录注册模拟的思路: 1.对于带token的页面,需要先从最开始的页面获取合法token 2.然后使用获取到的合法token进行后 ...
python接口自动化24-有token的接口项目使用unittest框架设计
获取token 在做接口自动化的时候,经常会遇到多个用例需要用同一个参数token,并且这些测试用例跨.py脚本了. 一般token只需要获取一次就行了,然后其它使用unittest框架的测试用例全部 ...
python接口自动化（十）--post请求四种传送正文方式（详解）
简介 post请求我在python接口自动化(八)--发送post请求的接口(详解)已经讲过一部分了,主要是发送一些较长的数据,还有就是数据比较安全等.我们要知道post请求四种传送正文方式首先需要先 ...
python接口自动化-Cookie_绕过验证码登录
前言有些登录的接口会有验证码,例如:短信验证码,图形验证码等,这种登录的验证码参数可以从后台获取(或者最直接的可查数据库) 获取不到也没关系,可以通过添加Cookie的方式绕过验证码前面在“pyt ...
python接口自动化-参数化
原文地址https://www.cnblogs.com/yoyoketang/p/6891710.html python接口自动化 -参数关联(一)https://www.cnblogs.com/11 ...
python接口自动化 -参数关联（一）
原文地址https://www.cnblogs.com/yoyoketang/p/6886610.html 原文地址https://www.cnblogs.com/yoyoketang/ 原文地址ht ...
python接口自动化20-requests获取响应时间(elapsed)与超时（timeout）
前言 requests发请求时,接口的响应时间,也是我们需要关注的一个点,如果响应时间太长,也是不合理的. 如果服务端没及时响应,也不能一直等着,可以设置一个timeout超时的时间关于reques ...

随机推荐

论文笔记 SSD: Single Shot MultiBox Detector
转载自:https://zhuanlan.zhihu.com/p/33544892 前言目标检测近年来已经取得了很重要的进展,主流的算法主要分为两个类型(参考RefineDet):(1)two-st ...
keras + tensorflow安装
先安装anaconda 一条指令:conda install keras 就可以把keras,tensorflow装好.
CSS 滤镜
声明: web前端学习笔记,欢迎大神指点.联系QQ:1522025433. CSS样式表是一种为超文本标签语言提供增强补充服务的技术,可对每一个html的标签做精雕细刻的修饰.只用html制作的网页, ...
Intellij IDEA配置tomcat热部署
idea2017+tomcat8为本文的实验环境 1.打开tomcat的edit configuration,一定要选择war exploded 在idea tomcat 中server的配置里,有 ...
查看Windows系统里的进程已运行的时间
搜索 ProcessExplorer ,可以去微软下载它.右键点击项类,selcet conlumns...在 Process Performance 里选择start time.有了进程的启动时间 ...
.NetCore 下开发独立的（RPL）含有界面的组件包（一）准备工作
.NetCore 下开发独立的(RPL)含有界面的组件包 (一)准备工作 .NetCore 下开发独立的(RPL)含有界面的组件包 (二)扩展中间件及服务 .NetCore 下开发独立的(RPL)含 ...
rabbitmq安装及基本操作（含集群配置）
一.rabbitmq的安装因为rabbitmq是基于 erlang语言开发,所有要先安装erlang 1.安装erlang 这里我下载的是19.2的版本,地址为https://www.erlang. ...
Error: The INF file contains Unicode characters that could not be converted correctly
昨天第一次为自己的windows mobile程序制作CAB安装包,但是在生成过程中,却出现了这样一个问题: 编译完成 -- 0 个错误,0 个警告time -> G:\WindowsMobil ...
asp.net core web项目目录解读
Connected Services 和传统.net web项目相比,它的功能类似于添加webservice或者wcf service的引用.暂时用不到,有兴趣的小伙伴可以深入了解.右键这个目录可以看 ...
Python 爬取生成中文词云以爬取知乎用户属性为例
代码如下: # -*- coding:utf-8 -*- import requests import pandas as pd import time import matplotlib.pyplo ...

python接口自动化28-requests-html爬虫框架

前言