微软云计算 Massive Data 处理语言Scope 1

　　Massive Data处理一直是云计算中很重要的一个环节.目前像Google,Yahoo在相关方面都有自己专有的技术.例如Google的基于MapReduce的Sawzall语言.和Yahoo基于Hadoop的Pig。

　　Cosmos是微软的一个运行在大规模服务器集群上的分布式技术平台.专门用来存储和分析Massive Data.有了SCOPE,相信微软自己的云计算架构将会更有吸引力.不同于Google,和Yahoo的是微软的SCOPE语言虽然像SQL语句,但其实是来自C#语言扩展。

什么是Scope？，首先：

　　1.Scope is the Query Language for Cosmos

　　2.Scope Is Not SQL

Scope 中的数据类型：

bool	Long
byte[]	Ulong
binary (an alias for byte[])	Float
byte	Double
sbyte	decimal
Char	String
Guid	Short
Int	ushort
Uint	User-Defined Types

Scope基本语法

逻辑运算符：AND（与，不能用 &&），OR（或，不能用 ||），==（等于，不能用 =）

SELECT：与SQL相同，通过 AS 关键字给列分配名称。

rs1 =
SELECT  Market, DwellTime + 1.0 AS DwellTime2
FROM searchlog;

WHERE：过滤输入的行数据；　

rs1 =
    SELECT Start, Market, DwellTime, DwellTime /60.0 AS DwellTimeInMinutes
    FROM searchlog;
rs2 =
    SELECT *
    FROM rs1
    ;

HAVING：过滤输出的行数据；

rs1 =
    SELECT Start, Market, DwellTime/60.0 AS DwellTimeInMinutes
    FROM searchlog
    ;

TOP n：获取前n行记录；

 rs1 =
     Market, DwellTime
    FROM searchlog;

DISTINCT：用法与SQL相同；

 rs1 =
    SELECT DISTINCT Market 
    FROM searchlog;

ORDER BY + ASC /DESC：

rs1 =
    SELECT Start, Market, DwellTime
    FROM searchlog
    ORDER BY DwellTime ASC;

RANK：列序号；

 rs1 =
    SELECT RANK AS RowNumber, Start, Market
    FROM searchlog
    ORDER BY Start;

聚集函数：

ARGMAX	AVG	COUNT	COUNTIF
FIRST	LAST	 LIST
MAX	MIN 	SUM	VAR	STDE

ARGMAX(a,b)：查找a列的最大值，并返回相应的b列的值。

UNION DISTINC：后续

UNION ALL：后续

INSERT DISTINC:后续

INSERT ALL：后续

EXCEPT DISTINC：后续

EXCEPT ALL：后续

关联操作（与SQL相同，不做详细介绍）：

INNER JOIN
LEFT OUTER JOIN
RIGHT OUTER JOIN
FULL OUTER JOIN
CROSS JOIN (没有限制条件的 INNER JOIN  )
LEFT SEMIJOIN (Is more like a filter than a join. It is the syntactical way of expressing)
RIGHT SEMIJOIN

预处理参数：

#DECLARE str1 string = "Hello World";
#DECLARE str2 string = "BEGIN" + @str1 + "END";
#}END", @str1);
#");

脚本参数：

@@foo@@

类型转换：部分类型可以相互转换

rs1 =
SELECT Market,  ((double) DwellTime) AS DwellTimeDouble
FROM searchlog;

调用 C# 方法：MyHelper.SecondsToMinutes() 是c#语言定义的方法

rs1 =
SELECT  Market, MyHelper.SecondsToMinutes(DwellTime) AS DwellTimeInMinutes
 FROM searchlog;

三目运算：

cond ? a : b
IF (<cond>, <a>, <b> )

非结构化文本流

　　Scope处理的内容（输入和输出）可以分为结构化文本流和非结构化文本流。其中，结构化文本流（.ss文件）中包含了列名，数据类型等数据（Schema），并且已经确定了各行以及各列的数据结构，你可以把它看作是数据库中的一张表，因此我们一般不会手动修改.ss文件中的内容。而非结构化文本流一般为普通的文本文件，没有明确规定列名以及格式，甚至是每行和每列的分隔符。但是一般情况下，我们更习惯用Tab（\t）作为列分隔，换行（\n）作为行分隔。

非结构化文本流基本概念：

不适用SSTREAM;
使用 提取器 (Extrator) 提取并转换 行集 (Rowset)；
使用输出器(Outputer) 输出 流(Stream)；
默认的提取器和输出器，以及用户自定义的提取器和输出器

读取非结构化文本流使用 EXTRACT 关键字，需要指定Extractor ，当然你也可以使用默认的Extractor，用法如下：

rs0 =
    EXTRACT
        FirstName : string,
        LastName : string,
        Age : int
    FROM
        "/test_input.txt"
    USING DefaultTextExtractor()
    ;

DefaultTextExtractor() 以Tab（\t）作为列分隔符。当然，你也可以自己实现一种Extractor，来读取文本内容：

public class MyExtractor : Extractor
{
    public override IEnumerable<Row> Extract(StreamReader reader, Row outputRow, string[] args)
    {
        string line;
        while ((line = reader.ReadLine()) != null)
        {
            var urls = new List<string>();
            string[] datas = line.Split('\t');
            ].Split(';');

            foreach(var item in urlDatas)
            {
                if(!string.IsNullOrEmpty(item))
                {
                    outputRow[].UnsafeSet(datas[]);
                    outputRow[].UnsafeSet(item);
                    yield return outputRow;
                }
            }
        }
    }

    public override Schema Produces(string[] requestedColumns, string[] args)
    {
        return new Schema("Name:string,Email:string");
    }
}

对应的Scope脚本：

input =
    EXTRACT *
    FROM @"input\test.txt"
    USING MyExtractor();

OUTPUT input
TO "result.txt";

以及输入输出：

input\test.txt：
Jadfine	djatr@outlook.com;tojadfine@outlook.com
Kinsan	kjmint@outlook.com;sun308@outlook.com;kin_sun@hotmail.com
result.txt：
Jadfine	djatr@outlook.com
Jadfine	tojadfine@outlook.com
Kinsan	kjmint@outlook.com
Kinsan	sun308@outlook.com
Kinsan	kin_sun@hotmail.com

　　和我们预想的一样，第二列的Emails 以；作为分隔符被分隔成了多条记录。还要特别说明一下，我们要使用自己定义的Extractor，需要继承ScopeRuntime.Extractor类，并重写Extract和Product方法。

　　Extract方法有三个参数：IEnumerable<Row> Extract(StreamReader reader, Row outputRow, string[] args) 。其中StreamReader 读的是 FROM @"input\test.txt" 中的内容。Row是要输出的行，其中包含 Name(string 类型)，Email(string 类型)两列。Row的数量，名称是由Product方法定义的。关于如何通过重写Product方法修改，新增，删除列，将在后续介绍。最后一个参数 string[] args 传递的是我们在Scope脚本中调用此方法时传递的参数，如： USING MyExtractor("arg1","arg2");

结构化文本流

后续。。

微软云计算 Massive Data 处理语言Scope 1的更多相关文章

[书目20140902]实战Windows Azure——微软云计算平台技术详解 --徐子岩
目录第1章云计算技术简介 1.1 云计算所要解决的问题 1.2 云计算平台的分类 1.3 微软云计算平台Windows Azure 1.3.1 高可用性 ...
Multithreading C++ Out of Core Sotring for Massive Data|多线程C++的大规模数据外部排序
先说一下,这个其实是我为实现PantaRay或者是类似Dreamworks的Out of Core点云GI的技术储备,为大规模点云光线跟踪所准备的第一步.在实际的应用中,int类型会被64bit的ui ...
高手问答精选：Go 语言 —— 云计算时代的 C 语言（类似于一个FAQ）
Go 语言被称为云计算时代的 C 语言,它在软件开发效率和运行效率之间做出了绝佳的权衡.这使得它既适应于互联网应用的极速开发,又能在高并发.高性能的开发场景中如鱼得水.正因如此,许多互联网公司,尤其是 ...
MindV编入微软云计算中小企业解决方案
鹰翔MindV思维导图软件基于云计算,曾作为windows azure云计算的一个样例介绍,收入中小企业解决方案中.http://www.microsoft.com/hk/smb/cloud/azur ...
Interviews3D: APlatform for Interactive Handing of Massive Data Sets 读后感
横向比较: Inadequacy of current system design( 现代系统和一些软件的不足) 软件特点: Output sensitivity Out-of core data h ...
Massive Data Mining学习记录
第一周: 学习PageRank, 知识点:每个节点的权值由其他节点的投票决定,所有节点的权值和为1 当节点很多时候必须转换成矩阵运算来计算节点的最终值,由马尔可夫链可以证明,这个值可以迭代得到问题: ...
微软的R语言发行版本MRO及开发工具RTVS
(此文章同时发表在本人微信公众号"dotNET每日精华文章",欢迎右边二维码来关注.) 题记:微软在收购R语言的开发商后,也独立发行或在自己的产品中集成了R语言,这里就介绍下它们包 ...
Win7 SP1语言包微软官方下载地址及使用方法 2
情形一:如果您的系统版本是企业版.旗舰版,可以在Windows update中检测语言包按照提示下载安装即可.如果觉得Windows update不方便的话,可以在本文第二部分中下载所需的语言包,下载 ...
C# VS2010中，用微软自带的System.Data.OracleClient来连接Oracle数据库
由于微软在.Net框架4.0中已经决定撤销使用System.Data.OracleClient,造成在VS2010中无法连接Oracle数据库,但它还依旧存在于.Net架构中,我们可以通过自己引用 C ...

随机推荐

ubuntu下MySQL修改root密码的多种方法，phpmyadmin空密码无法登陆的解决方法
phpmyadmin是默认不允许使用空密码的,所以若是在安装时没有设置密码,在登陆phpmyadmin时是个很头疼的问题方法1是修改phpmyadmin的配置文件,这里不做推荐.. 方法2: php ...
.NET企业级应用WebService上传下载文件
在建立好一个WebService后会有一个自带的 [WebMethod]//在待会写的所有方法中都要写这个,便于调试 public string HelloWorld() { return " ...
使用LINQ TO XML 创建xml文档，以及读取xml文档把内容显示到GridView例子
首先,准备了一个Model类 using System; using System.Collections.Generic; using System.Linq; using System.Text; ...
Ubuntu系统下的实用软件推荐
想要在ubuntu下工作? 又担心影响效率? 这些软件可以帮助你解决问题 ! 基本在windows上可以做到的功能, 在linux中也同样能够实现,而且自己寻找解决方案的过程才是最有趣的! 1.gua ...
ADO.NET生成的数据库连接字符串解析
1.概述当我们使用ADO.NET数据实体模型生成的时候,在项目目下生成一个.edmx文件的同时,还会在app.config里面出现如下一个代码串: <?xml version="1. ...
Appium python自动化测试系列之滑动函数封装实战(八)
8.1 什么是函数的封装教科书上函数的封装太官方,我们这里暂且将函数的封装就是为了偷懒把一些有共性的功能或者一些经常用的功能以及模块放在一起,方便我们以后再其他地方调用.这个只是个人的理解所以大家懂 ...
Web前端性能优化——如何有效提升静态文件的加载速度
WeTest 导读此文总结了笔者在Web静态资源方面的一些优化经验. 一.如何优化用户在访问网页时, 最直观的感受就是页面内容出来的速度,我们要做的优化工作, 也主要是为了这个目标.那么为了提高页 ...
通过Struts了解MVC框架，兼说如何在面试中利用Struts证明自己
虽然目前Struts MVC框架不怎么用了,但它确是个能帮助大家很好地入门Web MVC框架,而且,一些历史项目可能还用Struts,反正技多不压身,大家如果能在面试中通过项目证明自己Struts这块 ...
SQL2008清空删除日志:
SQL2008清空删除日志: '在SQL2008中清除日志就必须在简单模式下进行,等清除动作完毕再调回到完全模式. USE [master] GO ALTER DATABASE DNName SET ...
1041: [HAOI2008]圆上的整点
1041: [HAOI2008]圆上的整点 Time Limit: 10 Sec Memory Limit: 162 MBSubmit: 4298 Solved: 1944[Submit][Sta ...

微软云计算 Massive Data 处理语言Scope 1

微软云计算 Massive Data 处理语言Scope 1的更多相关文章

随机推荐

热门专题