常见Python爬虫工具总结

前言

以前写爬虫都是用requests包，虽然很好用，不过还是要封装一些header啊什么的，也没有用过无头浏览器，今天偶然接触了一下。

原因是在处理一个错误的时候，用到了几个以前没有用过的工具；这几个工具也挺常见的，在这里一起总结一下。包括以下几个：

selenium
requests-html

selenium

简介

selenium是一个网页自动化测试的工具，既然是网页测试的，那么肯定支持各种浏览器了，常见的Firefox/Chrome/Safari都支持；当然，也需要你下载对应浏览器的驱动了。下面简单说一下他的使用方式。

安装

使用pip install selenium安装selenium
安装对应浏览器驱动，chrome的可以去这里下载
把驱动copy到/usr/local/bin下（非必须，不拷贝的话在使用的时候需要制定驱动的路径）

简单使用

from selenium import webdriver

driver = webdriver.chrome.webdriver.WebDriver()

driver.get("https://www.lagou.com/jobs/3490584.html")

# 获取源码

a = driver.page_source.encode('utf-8')

# 查找资源/tag

driver.find_element_by_xpath(u"//img[@alt='强化学习 (Reinforcement Learning)']").click()

driver.find_element_by_link_text("About").click()

# 截图

driver.get_screenshot_as_file("./img/sreenshot1.png")

requests-html

简介

是不是看见requests很熟悉，没错，这个就是会拍照又会写代码的requests的作者写的又一个库；

这个库代码并不是很多，都是基于其他库封装的，lxml/requests啊这些；使用也很简单，遵循了他的宗旨：for humans

安装

pip install requests-html

使用

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://python.org/')

# 获取页面上的链接

r.html.links

r.html.absolute_links

# 用css选择器选择一个元素

about = r.html.find('#about', first=True)

print(about.text)

# xpath

r.html.xpath('a')

参考

常见Python爬虫工具总结的更多相关文章

常见Python爬虫框架你会几个？
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理.作者:三名狂客正文注意:如果你Python技术学的不够好,可以点击下方链接 ...
python爬虫工具集合
python爬虫工具集合大家一起来整理吧!强烈建议PR.这是初稿,总是有很多问题,而且考虑不全面,希望大家支持! 源文件主要针对python3 常用库 urllib Urllib是python提供 ...
python爬虫工具
一直都听说python写爬虫工具非常方便,为了获取数据,我也要写点爬虫,但是python太灵活了,不知道python爬虫要哪些框架,要了解,比如beatiful soup,scrapy, 爬虫的额主要 ...
Python 爬虫工具 —— fake_useragent
服务器为避免爬虫工具无休止的请求,以减轻负载,会对 user agent 进行校验,即判断某一 user-agent 是否不断地进行请求.可采用如下方式进行绕过服务器的校验. UserAgent_Li ...
一个python爬虫工具类
写了一个爬虫工具类. # -*- coding: utf-8 -*- # @Time : 2018/8/7 16:29 # @Author : cxa # @File : utils.py # @So ...
几个Python爬虫工具介绍
Request Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用上面一句话出自Requests官方文档的第一句,从而奠定了其逗逼的文档风格.类似的还有: 警告: ...
Python爬虫和情感分析简介
摘要这篇短文的目的是分享我这几天里从头开始学习Python爬虫技术的经验,并展示对爬取的文本进行情感分析(文本分类)的一些挖掘结果. 不同于其他专注爬虫技术的介绍,这里首先阐述爬取网络数据动机,接着 ...
Python爬虫突破封禁的6种常见方法
转 Python爬虫突破封禁的6种常见方法 2016年08月17日 22:36:59 阅读数:37936 在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长.今天大众好像更倾向于用 ...
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题
python爬虫---详解爬虫分类,HTTP和HTTPS的区别,证书加密,反爬机制和反反爬策略,requests模块的使用,常见的问题一丶爬虫概述通过编写程序'模拟浏览器'上网,然后通 ...

随机推荐

MAC OS X下配置PHP开发、调试环境
操作系统:MAC OS X 工具:MAMP.PhpStorm.xdebug.chrome 1.下载MAMP 2.安装比较简单,安装完成后,应用程序中会增加如下4个应用 MacGDBp是PHP调试器,使 ...
hdu1003 Max Sum【最大连续子序列之和】
题目链接:https://vjudge.net/problem/HDU-1003 题目大意:给出一段序列,求出最大连续子序列之和,以及给出这段子序列的起点和终点. 解题思路:最长连续子序列之和问题其实 ...
mac电脑对ntfs格式硬盘进行写操作（简单说就是向ntfs硬盘拷贝东西）
使用mac电脑的童鞋应该都会遇到一个问题: 对ntfs格式的优盘或硬盘(移动硬盘默认ntfs)只能读不能写,也就是只能拷贝出数据,却没法拷贝数据到移动硬盘中. 下面是参考自网上的一种方法,无需第三方软 ...
codeforces-1114F-线段树练习
https://www.cnblogs.com/31415926535x/p/10391639.html 概述这是一道用线段树维区间值的一道题,,题意很简单,,就是对于给定的一个序列,,初始时每个数 ...
IdentityServer4-端点
一.发现端点二.授权端点三.令牌端点四.UserInfo端点五.Introspection端点六.撤销端点七.结束会话端点一.发现端点发现端点可用于检索有关IdentityServer ...
JAVA中验证邮箱是否有效
String email = form.getEmail(); if(!email.matches("^([a-zA-Z0-9_-])+@([a-zA-Z0-9_-])+((\\.[a-zA ...
C语言字符串操作详细总结
1)字符串操作 strcpy(p, p1) 复制字符串 strncpy(p, p1, n) 复制指定长度字符串 strcat(p, p1) 附加字符串 strncat(p, p1, n) 附加指定长度 ...
xtrabackup备份MySQL并主从同步
为什么要使用xtarbackup? mysqldump备份数据库的时候,会锁库锁表,导致业务服务的暂时停滞,数据库数量小还没有感觉,当数据超过几个G的时候,使用mysqldump会严重影响服务器性能, ...
CentOS 6.8 安装 Erlang 及 RabbitMQ Server
安装 Erlang 19.3 # 安装依赖包 yum install -y gcc gcc-c++ unixODBC-devel openssl-devel ncurses-devel # 下载 er ...
461.汉明距离（c++实现）
问题描述: 两个整数之间的汉明距离指的是这两个数字对应二进制位不同的位置的数目. 给出两个整数 x 和 y,计算它们之间的汉明距离. 注意:0 ≤ x, y < 231. 示例: 输入: x = ...

常见Python爬虫工具总结

常见Python爬虫工具总结

前言

selenium

简介

安装

简单使用

requests-html

简介

安装

使用

参考

常见Python爬虫工具总结的更多相关文章

随机推荐

热门专题