Python数据整合与数据准备-BigGorilla介绍

shaomine 2024-08-31 04:52:11 原文

　　参考文档：http://www.biggorilla.org/zh-hans/walkt/

　　一、前言

　　　　“根据访谈记录和专家估计，数据科学家将50%至80%的时间花在搜集和准备难以梳理的数字数据的琐碎工作中，然后才能开发这些数据完成有用的工作”

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　— Steve Lohr, Aug 17, 2014, New York Times (For Big-Data Scientists, ‘Janitor Work’ Is Key Hurdle to Insights)

　　二、BigGorilla介绍

　　　　　　BigGorilla是一个开源数据整合和数据准备生态系统（由Python提供支持），以允许数据科学家执行数据整合和分析。BigGorilla整合和记录数据科学家将不同来源的数据融合到一个数据库以进行数据分析时通常采取的不同步骤。

　　　　对于其中的每个步骤，我们记录现有的技术，并指出可以开发的所需技术。

　　　　BigGorilla的各个组件可供免费下载和使用。我们鼓励数据科学家为BigGorilla贡献代码、数据集和示例。我们的目标还在于推进教育和培训，以通过BigGorilla提供的开发、文档和工具启示数据科学家。使用我们的BigGorilla教程立即开始数据整合与数据准备。

　　　　

　　　　　　下面的虚构情境阐释如何使用BigGorilla的不同组件（参见页面底部）。假设一家公司尝试了解其客户和潜在客户对于公司产品以及对于竞争对手产品的想法。其目标在于，从相关的推特、博客和新闻文章中获取和准备数据，

　　　　然后再对数据进行最喜好情感分析。下文描述了在执行情感分析算法之前为准备数据而采取的一种可能步骤。

　　　　

　　　　首先从不同来源（在本例中，从相关的推特、博客和新闻文章中）获取数据。一个获取步骤生成一个CSV文件，而另一个获取步骤生成一个JSON文件。然后使用两个抽取文件分别抽取以下信息：

　　　　1、 JSON格式的推特（公司、项目、{sentence, tweetid, date}），其中句子、推特ID和日期按照公司和项目分组；

　　　　2、 CSV格式的关于内容（公司名称、产品、情感表达、博客URL和日期）。之后，执行数据转换步骤，通过嵌套句子、推特ID和日期与公司名称和项目，将JSON文件转换为CSV文件。下一步就是匹配两个模式与用户设计的目标模式最终方案

　　　　　　（公司、产品、言语、省份、日期）。模式映射组件使用由此得到的匹配生成一个脚本，该脚本会将两个源转换并组合为符合目标模式的数据。最后一步是数据匹配，其目标在于识别属于同一个公司和产品配对的所有言语。

　　　　　　不同的步骤可以手动或者通过流程管理工具进行组合和协调

Python数据整合与数据准备-BigGorilla介绍的更多相关文章

Python数据整合与数据准备-BigGorilla应用
一.前言要应用BigGorilla框架对应数据进行数据的处理与匹配,那么首先要下载Anaconda安装,下载地址:https://www.continuum.io/downloads Anacond ...
Python数据整合与数据准备-BigGorilla实例应用
参考文档:http://www.biggorilla.org/walkt/ 一.BigGorilla应用主要步骤如下图: 二.实例应用 1.数据获取 urllib是非常受欢迎的用于在网络上读取数据的 ...
PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)
说明文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...
Python 进程之间共享数据
最近遇到多进程共享数据的问题,到网上查了有几篇博客写的蛮好的,记录下来方便以后查看. 一.Python multiprocessing 跨进程对象共享在mp库当中,跨进程对象共享有三种方式,第一种 ...
Python数学建模-02.数据导入
数据导入是所有数模编程的第一步,比你想象的更重要. 先要学会一种未必最佳,但是通用.安全.简单.好学的方法. 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人. 1. 数据导入 ...
用IBM WebSphere DataStage进行数据整合: 第 1 部分
转自:http://www.ibm.com/developerworks/cn/data/library/techarticles/dm-0602zhoudp/ 引言传统的数据整合方式需要大量的手工 ...
使用Python实现子区域数据分类统计
目录前言 geopandas简介子区域数据分类统计总结一.前言最近碰到一个需求,需要统计某省内的所有市的某数据分布情况信息.现有该省的数据分布情况以及该省的行政区划数据.我通过 ...
Spark Streaming和Kafka整合保证数据零丢失
当我们正确地部署好Spark Streaming,我们就可以使用Spark Streaming提供的零数据丢失机制.为了体验这个关键的特性,你需要满足以下几个先决条件: 1.输入的数据来自可靠的数据源 ...
Python使用plotly绘制数据图表的方法
转载:http://www.jb51.net/article/118936.htm 本篇文章主要介绍了Python使用plotly绘制数据图表的方法,实例分析了plotly绘制的技巧. 导语:使用 p ...

随机推荐

mysql导入数据库出现:Incorrect string value: '\xE7\x82\xB9\xE9\x92\x9F' for column 'chinese' at row 1
mysql导入数据库出现:Incorrect string value: '\xE7\x82\xB9\xE9\x92\x9F' for column 'chinese' at row 1 使用 sho ...
Ubuntu10.04中利用V4L2读取摄像头数据并保存成文件【转】
转自:http://blog.chinaunix.net/uid-29339876-id-4042245.html 利用V4L2读取UVC摄像头数据并保存成视频文件,主要参考http://linuxt ...
twitter api取出的日期格式化
import pickle import datetime crate_time_list=[] twitter_id_list=[] twitter_url_list=[] twitter_text ...
phoronix-test-suite测试云服务器
centos系统 phoronix-test-suite是目前Linux下比较常用的性能测试软件. 使用phoronix-test-suite条件前提:需要安装php5,需要PHP都DOM扩展因为是 ...
PC机做ISCSI存储服务器故障
物理主机:IBM x3650 6块SAS盘,分为两组RAID.一组系统,一组数据. zabbix监控告警情况如下: 早上上班,发现服务器无法连接,网络无法通信.让IDC重启,还是无法恢复正常. 去了机 ...
图的遍历[DFS][BFS]
#include<iostream> #include<iostream> #include<cstring> #include<queue> #inc ...
ANSI、ASCII、Unicode和UTF-8编码
来自:http://blog.163.com/yang_jianli/blog/static/161990006201371451851274/ --------------------------- ...
iptables内网地外网之间访问
环境:一台带外网和内网的机器,另一台只有内网,默认不能上网.两台机器都是centos系统带外网机器的外网ip为 123.221.20.11, 内网网关ip为 192.168.15.100内网机器的内网 ...
processEngine.getRuntimeService().createProcessInstanceQuery().processInstanceId(“ 132501”).active().singleResult();
JAVA: processEngine.getRuntimeService().createProcessInstanceQuery().processInstanceId(“ 132501”).ac ...
iPhone手机关闭ios10自动更新
在手机上打开safari,地址栏输入:https://oldcat.me/web/NOOTA9.mobileconfig然后回车按照要求安装此provision文件即可,然后重启.桌面出现一个反馈感叹 ...