Spark之搜狗日志查询实战

1、下载搜狗日志文件：

地址：http://www.sogou.com/labs/resource/chkreg.php

2、利用WinSCP等工具将文件上传至集群。

3、创建文件夹，存放数据：

mkdir /home/usr/hadoopdata

4、将搜狗日志数据移到（mv命令）3中创建的目录下，并解压

tar -zxvf SogouQ.mini.tar.gz

5、查看解压后文件格式

file SogouQ.sample

显示：

不是UTF-8，用head/cat命名查看，中文乱码（影响后续进程），需对文件格式进行转换：

iconv -f gb2312 SogouQ.sample -o SogouQ.sample2

再次查看即可正常显示中文。

6、启动集群（Hadoop、spark）。启动后，进入hadoop安装目录下，在hdfs上新建存放数据的目录，并将5中已进行格式转换后的日志文件放到hdfs上，再查看文件是否上传成功，命令如下：

cd /home/usr/hadoop/hadoop-2.8.

hadoop fs -mkdir /sogoumini

hadoop fs -put /home/chenjj/hadoopdata/testdata/SogouQ.sample2 /sogoumini

hadoop fs -ls /sogoumini/SogouQ.sample2

结果：

7、进入spark安装目录下bin，启动spark-shell，由于本集群采用yarn模式部署的，故启动时选取yarn，其他参数可自行配置。

cd spark/spark-2.1.-bin-hadoop2./bin

./spark-shell --master yarn --executor-memory 2g --driver-memory 2g

8、进入spark-shell后，执行以下操作，在每句后面有说明

val path="hdfs:///sogoumini/SogouQ.sample2"——声明路径

val sogouminirdd=sc.textFile(path)——读取hdfs上搜狗日志文件

sogouminirdd.count()——查看文件总共多少条记录

val mapsogouminirdd=sogouminirdd.map(_.split("\\s")).filter(_.length==)——筛选出格式正确的数据

mapsogouminirdd.count()——查看格式正确的有多少条，是否所有数据均正确

val firstmapsogouminirdd=mapsogouminirdd.filter(_().toInt==).filter(_().toInt==)——筛选出当日搜索结果排名第一同时点击结果排名也是第一的数据量

firstmapsogouminirdd.count()——查看结果是第多少条数据

注：（1） 元数据文件格式和官网描述不一致问题，官方说明排名和用户点击的顺序号之间是以Tab键分隔的，而实际是以空格分隔。

解决方法: spark分词时用split("\\s")代替split("\t"))。

9、使用toDebugString查看RDD血统（lineage）

firstmapsogouminirdd.toDebugString

结果如下：

可见其血统关系是：HadoopRDD->MappedRDD->MappedRDD->FilteredRDD->FilteredRDD->FilteredRDD。

10、用户ID查询次数排行榜：

val sortrdd=mapsogouminirdd.map(x=>(x(),)).reduceByKey(_+_).map(x=>(x._2,x._1)).sortByKey(false).map(x=>(x._2,x._1))
sortrdd.count()

11、将结果存放在hdfs中：

val outputpath="hdfs:///sogoumini/SogouQresult.txt"——存放路径及文件名

sortrdd.saveAsTextFile(outputpath)——存结果

Spark之搜狗日志查询实战的更多相关文章

使用Spark进行搜狗日志分析实例——统计每个小时的搜索量
package sogolog import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /* ...
使用Spark进行搜狗日志分析实例——map join的使用
map join相对reduce join来说,可以减少在shuff阶段的网络传输,从而提高效率,所以大表与小表关联时,尽量将小表数据先用广播变量导入内存,后面各个executor都可以直接使用 pa ...
使用Spark进行搜狗日志分析实例——列出搜索不同关键词超过10个的用户及其搜索的关键词
package sogolog import org.apache.hadoop.io.{LongWritable, Text} import org.apache.hadoop.mapred.Tex ...
Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战（二）
1.动手实战和调试Spark文件操作这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...
《图解Spark：核心技术与案例实战》介绍及书附资源
本书中所使用到的测试数据.代码和安装包放在百度盘提供下载 ,地址为https://pan.baidu.com/s/1o8ydtKA 密码:imaa 另外在百度盘提供本书附录下载 ,地址为http ...
《图解Spark：核心技术与案例实战》作者经验谈
1,看您有维护博客,还利用业余时间著书,在技术输出.自我提升以及本职工作的时间利用上您有没有什么心得和大家分享?(也可以包含一些您写书的小故事.)回答:在工作之余能够写博客.著书主要对技术的坚持和热爱 ...
Spark Streaming 进阶与案例实战
Spark Streaming 进阶与案例实战 1.带状态的算子: UpdateStateByKey 2.实战:计算到目前位置累积出现的单词个数写入到MySql中 1.create table CRE ...
日志检索实战 grep sed
日志检索实战 grep sed 参考 sed命令使用 grep -5 'parttern' inputfile //打印匹配行的前后5行 grep -C 5 'parttern' inputfile ...
Spark SQL知识点大全与实战
Spark SQL概述 1.什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块. 与基本的Spark RDD API不同,Sp ...

随机推荐

setup 命令中防火墙配置选项无法打开
故障提示 1.1 如何让setup 命令中防火墙配置生效 1.1.1 CentOS系统找不到setup命令工具的解决方法 yum -y install setuptool #安装setup命令工具 y ...
[J2EE] 有关 PreparedStatement
今天同事遇到一个问题,简言之,就是PreparedStatement的预编译究竟是怎么发挥作用的... 嘿嘿,说来惭愧,我以前就只知道PreparedStatement比Statement要好,要防S ...
02.JSP内置对象
一.内置对象:不再由用户进行实例化而可以直接使用的对象,一共九种,一定要清楚的记住每种内置对象的类型,以方便查询文档. 二.四种属性保存范围 1, 属性保存范围:指一个设置的对象,可以经过多少个其他 ...
python3 xpath数据获取案例
import requestsfrom retrying import retryfrom lxml import etreeimport json class DaCheng(object): de ...
Visual Studio 生成DLL文件
新建一个项目,在菜单栏中选择“项目”/“**属性”选项,该页面中将“输出类型”下拉列表中的选项选择为“类库”,然后重新生成一下该项目,或者在“Visual Studio 2008命令提示”中输入以下命 ...
K-Means和图片压缩
通俗的介绍这种压缩方式,就是将原来很多的颜色用少量的颜色去表示,这样就可以减小图片大小了.下面首先我先介绍下K-Means,当你了解了K-Means那么你也很容易的可以去理解图片压缩了,最后附上图片压 ...
Linux 计划任务总结
今天项目用到了,Linux计划任务,从网上找了基本blog看了,总结了下. Linux 下的计划任务有atd和crond两种计划任务.atd服务使用的at命令只能执行一次,而crond服务使用的cro ...
线性代数之行列式的C#研究实现
最近学习机器学习才发现以前数学没有学好开始从线性代数开始学起读完行列式一章写了些C#的代码学习一下. 直接上C#代码: using System; using System.Collection ...
iOS swift的xcworkspace多项目管理（架构思想）
iOS swift的xcworkspace多项目管理(架构思想) 技术说明: 今天在这里分享 swift下的 xcworkspace多项目管理(架构思想),能为我们在开发中带来哪些便捷?能为我们对整 ...
P3052 [USACO12MAR]摩天大楼里的奶牛Cows in a Skyscraper
题目描述给出n个物品,体积为w[i],现把其分成若干组,要求每组总体积<=W,问最小分组.(n<=18) 输入格式: Line 1: N and W separated by a spa ...

Spark之搜狗日志查询实战

Spark之搜狗日志查询实战的更多相关文章

随机推荐

热门专题