9个用来爬取网络站点的 Python 库
1️⃣Scrapy
一个开源和协作框架,用于从网站中提取所需的数据。 以快速,简单,可扩展的方式。
相关课程推荐:Python 网站信息爬虫
2️⃣cola
一个分布式爬虫框架。
GitHub:https://github.com/chineking/cola
3️⃣Demiurge
基于 PyQuery 的爬虫微型框架。
官网:https://demiurge.readthedocs.io/en/v0.2/
4️⃣feedparser
通用 feed 解析器。
官网:https://pythonhosted.org/feedparser/
5️⃣Grab
Grab 是一个用于构建 Web scraper 的 python 框架。 使用 Grab,您可以构建各种复杂性的 Web scraper,从简单的5行脚本到处理数百万个 Web 页面的复杂异步网站爬虫。 Grab 提供用于执行网络请求和处理所接收内容的 API。 与 HTML 文档的 DOM 树交互。
官网:https://grablib.org/en/latest/
6️⃣MechanicalSoup
用于自动和网络站点交互的 Python 库。
GitHub:https://github.com/MechanicalSoup/MechanicalSoup
7️⃣portia
Scrapy 可视化爬取。允许你在不需要任何编程知识的情况下直观地抓取网站。 使用 Portia 可以注释一个网页以识别您想要提取的数据,Portia 将根据这些注释了解如何从类似页面中抓取数据。
GitHub:https://github.com/scrapinghub/portia
8️⃣pyspider
一个强大的爬虫系统。
9️⃣RoboBrowser
一个简单的,Python 风格的库,用来浏览网站,而不需要一个独立安装的浏览器。
【关于技术清单】技术清单是由实验楼整合、梳理的一系列知识点合辑;每辑都有MD,PDF和思维导图多样呈现,并提供下载。本期为Python系列,包含5篇精选清单,下载方式如下:
相关阅读
9个用来爬取网络站点的 Python 库的更多相关文章
- Python 网络爬虫 007 (编程)  通过网站地图爬取目标站点的所有网页
		
通过网站地图爬取目标站点的所有网页 使用的系统:Windows 10 64位 Python 语言版本:Python 2.7.10 V 使用的编程 Python 的集成开发环境:PyCharm 2016 ...
 - 使用Python爬虫爬取网络美女图片
		
代码地址如下:http://www.demodashi.com/demo/13500.html 准备工作 安装python3.6 略 安装requests库(用于请求静态页面) pip install ...
 - python 爬取网络小说 清洗 并下载至txt文件
		
什么是爬虫 网络爬虫,也叫网络蜘蛛(spider),是一种用来自动浏览万维网的网络机器人.其目的一般为编纂网络索引. 网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引.网络爬虫可以 ...
 - 解决:Python爬取https站点时SNIMissingWarning和InsecurePlatformWarning
		
今天想利用Requests库爬取糗事百科站点,写了一个请求,却报错了: 后来参考kinsomy的博客,在cmd中pip install pyopenssl ndg-httpsclient pyasn1 ...
 - Python+Requests+Xpath(解析)爬取某站点简历图片(数据分析三)
		
1.环境安装 pip install lxml 2.解析原理 使用通用爬虫爬取网页数据 实例化etree对象,且将页面数据加载到该对象中 使用xpath函数结合xpath表达式进行标签定位和指定数据提 ...
 - Selenium&PhantomJS 完成爬取网络代理
		
Selenium模块是一套完整的Web应用程序测试系统,它包含了测试的录制(SeleniumIDE).编写及运行(Selenium Remote Control)和测试的并行处理(Selenimu G ...
 - python从爬虫基础到爬取网络小说实例
		
一.爬虫基础 1.1 requests类 1.1.1 request的7个方法 requests.request() 实例化一个对象,拥有以下方法 requests.get(url, *args) r ...
 - Java爬取网络博客文章
		
前言 近期本人在某云上购买了个人域名,本想着以后购买与服务器搭建自己的个人网站,由于需要筹备的太多,暂时先搁置了,想着先借用GitHub Pages搭建一个静态的站,搭建的过程其实也曲折,主要是域名地 ...
 - 使用BeautifulSoup爬取“0daydown”站点的信息(2)——字符编码问题解决
		
上篇中的程序实现了抓取0daydown最新的10页信息.输出是直接输出到控制台里面.再次改进代码时我准备把它们写入到一个TXT文档中.这是问题就出来了. 最初我的代码例如以下: #-*- coding ...
 
随机推荐
- Hibernate获取数据java.lang.StackOverflowError
			
原因:因为在重写toString()方法时,把关联的属性也放入到toString方法中了,去掉就可以了. 如:重写的toString方法中不能有关联关系IDCard属性idCard public cl ...
 - 【转载】基于rasa的对话系统搭建(上)
			
文章介绍使用rasa nlu和 rasa core 实现一个电信领域对话系统demo,实现简单的业务查询办理功能,更完善的实现需要进一步数据的收集.demo基于玩具数据集,可以达到下面的效果: Bot ...
 - github控件地址
			
地址: https://github.com/wasabeef/awesome-android-ui http://www.jcodecraeer.com/plus/list.php?tid=31 h ...
 - 【转载】浅析依赖倒置(DIP)、控制反转(IOC)和依赖注入(DI)
			
原文地址 http://blog.csdn.net/briblue/article/details/75093382 写这篇文章的原因是这两天在编写关于 Dagger2 主题的博文时,花了大量的精力来 ...
 - python学习笔记(五)
			
面向对象方法 元组的二义性:不明确参数代表的含义 circle=(2,4,6) def distance_from_origin(x,y): return "返回x,y坐标" de ...
 - windows pm2 启动nodejs失败:Error: EBADF: bad file descriptor, uv_pipe_open
			
windows下打开命令窗口,安装pm2:npm install pm2 -g pm2成功安装,在项目目录下用pm2启动服务:pm2 start index.js,结果启动失败,错误如下: .pm2\ ...
 - github 开源 代码 学习 集合(转载)
			
一个支持多种item类型的recycleView依赖注入库 1.通过注解的方式方便的把ViewHolder注入到recycleView中. 2.去除findViewByID等冗余操作. 3.去除编写a ...
 - css之高度塌陷及其解决方法
			
浅谈 清除浮动 的多种方式(clearfix) 1.什么是浮动 ? 是否脱离文档流? 1.普通流定位 static(默认方式) 普通流定位,又称为文档流定位,是页面元素的默认定位方式 页面中的块级元素 ...
 - PHP版本MS17-010检测小脚本
			
内网渗透的时候有点用处,可以检测MS17-010的漏洞并获取操作系统信息,配合BURP可批量检测,纯socket发包,无需其他扩展. <?php //根据巡风python代码翻译成PHP代码 / ...
 - 【持续集成】GIT+jenkins+sonar——GIT
			
一.GIT基础 1.1 git简介 linus用C语言编写 2005年诞生 分布式管理系统 速度快.适合大规模.跨地区多人协同开发 1.2 本地管理.集中式.分布式 1.3 git安装 #CentOS ...