前言

requests库的好，只有用过的人才知道，最近这个库的作者又出了一个好用的爬虫框架requests-html。之前解析html页面用过了lxml和bs4,

requests-html集成了一些常用爬虫库的优点，依然是为人类服务：HTML Parsing for Humans。

目前只支持python3.6

相关安装包版本

requests 2.22.0
requests-html 0.10.0
requests-toolbelt 0.8.0

环境准备

requests-html的GitHub地址https://github.com/kennethreitz/requests-html,使用pip就能直接安装了。

pip install requests-html==0.10.0

该库旨在使解析HTML（例如，抓取Web）尽可能简单直观, 有以下优势：

完整的JavaScript支持！
CSS Selectors（又名jQuery风格，感谢PyQuery）。
XPath Selectors，对于胆小的人来说。
模拟用户代理（如真实的Web浏览器）。
自动跟踪重定向。
连接池和cookie持久性。
令人欣喜的请求体验，具有神奇的解析能力。
异步支持

抓页面url地址

先发个get请求，返回response对象，通过r.html.links获取页面的全部链接，包含一些相对路径的地址，如果只想获取绝对路径的地址，可以用r.html.absolute_links

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://python.org/')

# 获取页面上的所有链接

all_links = r.html.links

print(all_links)

# 绝对路径链接

all_absolute_links = r.html.absolute_links

print(all_absolute_links)

运行结果, 返回内容太多，省略了一部分：

{'http://pycon.blogspot.com/', '/community/', 'http://python.org/dev/peps/', '/events/python-events/831/', , 'http://www.scipy.org'}

{'http://pycon.blogspot.com/', 'https://www.python.org/dev/',  'https://wiki.qt.io/PySide', 'https://www.python.org/events/python-events/817/'}

从返回的结果可以看出，返回的是set集合，会自动的去除重复的链接地址

xpath定位

用过lxml库的小伙伴应该知道https://www.cnblogs.com/yoyoketang/p/9661273.html，lxml可以支持xpath查找元素对象，requests-html也可以完美的支持xpath

接下来我需要获取目标网站：https://www.cnblogs.com/yoyoketang/tag/django/，获取所有的文章标题，xpath语法：.//*[@id='myposts']/div/div/a

参考代码

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://www.cnblogs.com/yoyoketang/tag/django/')

# 只获取第一个

f = r.html.xpath(".//*[@id='myposts']/div/div/a", first=True).text

print(f)

# 获取全部

all = r.html.xpath(".//*[@id='myposts']/div/div/a")

for i in all:

    print(i.text)            # 获取文本

    print(i.absolute_links)  # 获取链接

运行结果

python测试开发django-49.allow_tags和mark_safe

python测试开发django-49.allow_tags和mark_safe

{'https://www.cnblogs.com/yoyoketang/p/10659137.html'}

python测试开发django-48.xadmin上传图片django-stdimage

{'https://www.cnblogs.com/yoyoketang/p/10655601.html'}

python测试开发django-47.xadmin上传图片和文件

{'https://www.cnblogs.com/yoyoketang/p/10653878.html'}

xpath方法返回是一个list，加上 first=True参数返回第一个结果

css定位支持

requests-html同样支持CSS Selector的方法，把上面案例用css定位也可以实现同样效果

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://www.cnblogs.com/yoyoketang/tag/django/')

# 只获取第一个 css语法

f = r.html.find(".PostList>div>a", first=True).text

print(f)

# 获取全部 css语法

all = r.html.find(".PostList>div>a")

for i in all:

    print(i.text)          # 获取文本

    print(i.absolute_links)  # 获取链接

其它方法

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://www.cnblogs.com/yoyoketang/tag/django/')

about = r.html.find(".PostList>div", first=True)

# 1.获取文本

print(about.text)

# 2.获取html内容

print(about.html)

# 3.获取全部属性

print(about.attrs)

# 4.获取链接

print(about.absolute_links )

# 5.搜索文字

print(about.search('python测试开发{}和mark_safe')[0])

# 6.继续定位子元素

print(about.find('a'))  # 返回list element对象

# 7.containing 模糊匹配 只包含'django'文本的对象

a = about.find('a', containing='django')

print(a)

运行结果

python测试开发django-49.allow_tags和mark_safe

<div class="postTitl2"><a href="https://www.cnblogs.com/yoyoketang/p/10659137.html" id="PostsList1_rpPosts_TitleUrl_0">python测试开发django-49.allow_tags和mark_safe</a></div>

{'class': ('postTitl2',)}

{'https://www.cnblogs.com/yoyoketang/p/10659137.html'}

django-49.allow_tags

[<Element 'a' href='https://www.cnblogs.com/yoyoketang/p/10659137.html' id='PostsList1_rpPosts_TitleUrl_0'>]

[<Element 'a' href='https://www.cnblogs.com/yoyoketang/p/10659137.html' id='PostsList1_rpPosts_TitleUrl_0'>]

这些只是一些基本的功能，requests-html还可以支持JavaScript渲染页面，看下一篇python接口自动化29-requests-html支持JavaScript渲染页面

python接口自动化28-requests-html爬虫框架的更多相关文章

python接口自动化：requests+ddt+htmltestrunner数据驱动框架
该框架分为四个包:xc_datas.xc_driven.xc_report.xc_tools. xc_datas:存放数据,xc_driven:存放执行程序,xc_report:存放生成的报告,xc_ ...
python接口自动化测试之requests库详解
前言说到python发送HTTP请求进行接口自动化测试,脑子里第一个闪过的可能就是requests库了,当然python有很多模块可以发送HTTP请求,包括原生的模块http.client,urll ...
Python接口自动化【requests处理Token请求】
首先说一下使用python模拟登录或注册时,对于带token的页面怎么登录注册模拟的思路: 1.对于带token的页面,需要先从最开始的页面获取合法token 2.然后使用获取到的合法token进行后 ...
python接口自动化24-有token的接口项目使用unittest框架设计
获取token 在做接口自动化的时候,经常会遇到多个用例需要用同一个参数token,并且这些测试用例跨.py脚本了. 一般token只需要获取一次就行了,然后其它使用unittest框架的测试用例全部 ...
python接口自动化（十）--post请求四种传送正文方式（详解）
简介 post请求我在python接口自动化(八)--发送post请求的接口(详解)已经讲过一部分了,主要是发送一些较长的数据,还有就是数据比较安全等.我们要知道post请求四种传送正文方式首先需要先 ...
python接口自动化-Cookie_绕过验证码登录
前言有些登录的接口会有验证码,例如:短信验证码,图形验证码等,这种登录的验证码参数可以从后台获取(或者最直接的可查数据库) 获取不到也没关系,可以通过添加Cookie的方式绕过验证码前面在“pyt ...
python接口自动化-参数化
原文地址https://www.cnblogs.com/yoyoketang/p/6891710.html python接口自动化 -参数关联(一)https://www.cnblogs.com/11 ...
python接口自动化 -参数关联（一）
原文地址https://www.cnblogs.com/yoyoketang/p/6886610.html 原文地址https://www.cnblogs.com/yoyoketang/ 原文地址ht ...
python接口自动化20-requests获取响应时间(elapsed)与超时（timeout）
前言 requests发请求时,接口的响应时间,也是我们需要关注的一个点,如果响应时间太长,也是不合理的. 如果服务端没及时响应,也不能一直等着,可以设置一个timeout超时的时间关于reques ...

随机推荐

spark简单总结—短小精悍
Spark是基于内存计算的大数据并行计算框架.因为其基于内存计算,较Hadoop中MapReduce计算框架具有更高的实时性,同时保证了高效容错性和可伸缩性.从2009年诞生于AMPLab到现在已经成 ...
poj12482 扫描线+lazy-tag
采用扫描线的思想,其实是区间更新的题目题解链接https://blog.csdn.net/shiqi_614/article/details/7819232 注意处理细节:1)因为边框上的点不算,所 ...
JMeter 聚合报告 90%响应时间
90%的响应时间理解官方解释:90% Line - 90% of the samples took no more than this time. The remaining samples at ...
python 全栈开发，Day30(纸牌游戏,异常和错误,异常处理)
一.纸牌游戏 ...
[转]notepad++ java编码，输出中文字符时，编译出错
呆在公司中,最近受开发手机app的几个同事影响,想学android的开发,心血来潮,挡也挡不住,说干就干,直接看教程,发现有很多关于java的语法知识不懂,于是又来学java,学习的过程中难免出现问题 ...
javah命令的使用
背景 java开发中如果使用到JNI,则难免需要使用javah来生成C++或C的头文件信息,下面小编就直接说说javah的命令: 第一种:直接cd到当前程序的target/class目录下(maven ...
Codeforces 707E Garlands
Garlands 我怎么感觉好水啊. 因为询问只有2000组, 离线询问, 枚举联通块再枚举询问, 二维树状数组更新答案. #include<bits/stdc++.h> #define ...
Nordic Collegiate Programming Contest NCPC 2017-Problem D-Distinctive Character
题目大意:给你n(n<=1e5)个二进制串 (每个串位数不超过20),定义两个串的相似度为对应位置上相同的个数. 让你构造一个二进制串,使这个串与所给的这些串的相似度的最小值最大. 思路:刚开 ...
KNN分类算法补充
KNN补充: 1.K值设定为多大? k太小,分类结果易受噪声点影响:k太大,近邻中又可能包含太多的其它类别的点. (对距离加权,可以降低k值设定的影响) k值通常是采用交叉检验来确定(以k=1为基准) ...
51Nod 算法马拉松28 A题先序遍历与后序遍历分治
欢迎访问~原文出处——博客园-zhouzhendong 去博客园看该题解题目传送门 - 51Nod1832 题意概括对于给定的一个二叉树的先序遍历和后序遍历,输出有多少种满足条件的二叉树. 两棵二 ...

python接口自动化28-requests-html爬虫框架

前言