使用Spark进行搜狗日志分析实例——列出搜索不同关键词超过10个的用户及其搜索的关键词

 package sogolog

 import org.apache.hadoop.io.{LongWritable, Text}

 import org.apache.hadoop.mapred.TextInputFormat

 import org.apache.spark.rdd.RDD

 import org.apache.spark.{SparkConf, SparkContext}

 class RddFile {

   def readFileToRdd(path: String): RDD[String] = {

     val conf = new SparkConf().setMaster("local").setAppName("sougoDemo")

     val sc = new SparkContext(conf);

     //使用这种方法能够避免中文乱码

     sc.hadoopFile("J:\\scala\\workspace\\first-spark-demo\\sougofile\\SogouQ.reduced",classOf[TextInputFormat], classOf[LongWritable], classOf[Text]).map{

       pair =>  new String(pair._2.getBytes, 0, pair._2.getLength, "GBK")}

   }

 }

 package sogolog

 import org.apache.spark.rdd.RDD

 /**

   * 列出搜索不同关键词超过3个的用户及其搜索的关键词

   */

 object userSearchKeyWordLT3 {

   def main(args: Array[String]): Unit = {

     //1、读入文件

     val textFile = new RddFile().readFileToRdd("J:\\scala\\workspace\\first-spark-demo\\sougofile\\SogouQ.reduced")

     //2、map操作，将每行的用户、关键词读入新的RDD中

     val userKeyWordTuple:RDD[(String,String)] = textFile.map(line=>{

       val arr = line.split("\t")

       (arr(1),arr(2))

     })

     //3、reduce操作，将相同用户的关键词进行合并

     val userKeyWordReduced = userKeyWordTuple.reduceByKey((x,y)=>{

       //去重

       if(x.contains(y)){

         x

       }else{

         x+","+y

       }

     })

     //4、使用filter进行最终过滤

     val finalResult = userKeyWordReduced.filter(x=>{

       //过滤小于10个关键词的用户

       x._2.split(",").length>=10

     })

     //5、打印出结果

     finalResult.collect().foreach(println)

   }

 }

运行结果：

使用Spark进行搜狗日志分析实例——列出搜索不同关键词超过10个的用户及其搜索的关键词的更多相关文章

使用Spark进行搜狗日志分析实例——统计每个小时的搜索量
package sogolog import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} /* ...
使用Spark进行搜狗日志分析实例——map join的使用
map join相对reduce join来说,可以减少在shuff阶段的网络传输,从而提高效率,所以大表与小表关联时,尽量将小表数据先用广播变量导入内存,后面各个executor都可以直接使用 pa ...
ELK 日志分析实例
ELK 日志分析实例一.ELK-web日志分析二.ELK-MySQL 慢查询日志分析三.ELK-SSH登陆日志分析四.ELK-vsftpd 日志分析一.ELK-web日志分析通过logstash ...
Spark之搜狗日志查询实战
1.下载搜狗日志文件: 地址:http://www.sogou.com/labs/resource/chkreg.php 2.利用WinSCP等工具将文件上传至集群. 3.创建文件夹,存放数据: mk ...
基于Spark的网站日志分析
本文只展示核心代码,完整代码见文末链接. Web Log Analysis 提取需要的log信息,包括time, traffic, ip, web address 进一步解析第一步获得的log信息,如 ...
spark提交异常日志分析
java.lang.NoSuchMethodError: org.apache.spark.sql.SQLContext.sql(Ljava/lang/String;)Lorg/apache/spar ...
(转载)shell日志分析常用命令
shell日志分析常用命令总结时间:2016-03-09 15:55:29来源:网络导读:shell日志分析的常用命令,用于日志分析的shell脚本,统计日志中百度蜘蛛的抓取量.抓取最多的页面.抓 ...
Spark RDD/Core 编程 API入门系列之动手实战和调试Spark文件操作、动手实战操作搜狗日志文件、搜狗日志文件深入实战（二）
1.动手实战和调试Spark文件操作这里,我以指定executor-memory参数的方式,启动spark-shell. 启动hadoop集群 spark@SparkSingleNode:/usr/ ...
[spark案例学习] WEB日志分析
数据准备数据下载:美国宇航局肯尼迪航天中心WEB日志我们先来看看数据:首先将日志加载到RDD,并显示出前20行(默认). import sys import os log_file_path =' ...

随机推荐

jquery延迟加载（懒加载）插件
Lazy Load 是一个用 JavaScript 编写的 jQuery 插件. 它可以延迟加载长页面中的图片. 在浏览器可视区域外的图片不会被载入, 直到用户将页面滚动到它们所在的位置. 这与图片预 ...
curl的POST请求，封装方法
//POST请求//参数1是请求的url//参数2是发送的数据的数组//参数3是其他POST选项public static function POST($url, array $post = arra ...
pytest--fixture参数化的实现方式和执行顺序
之前看到fixture函数可以通过添加,params参数来实现参数化,后续看到了悠悠的博客,可以通过@pytest.mark.parametrize来实现,现在做一个总结实现方式一通过param ...
20165303魏煜第一周kali安装
1.根据网址下载kali 这是kali的下载地址https://www.kali.org 找到download选择Kali Linux 64 bit VMware VM,点击后面蓝色部分开始下载选择6 ...
如何解锁亚马逊A9的新算法？
亚马逊每一次变动总能在跨境圈里掀起一场场风波,最近A9算法的更新更是牵动着不少卖家的心. A9算法是亚马逊运行的内核算法,只要消费者在亚马逊上面搜索了商品,那么他就已经开始使用了A9算法,通过分析每一 ...
mybatis 动态添加表，查看表，添加数据
1.动态添加表 mapper int dropExistTable(@Param("tableName") String tableName);//自动创建数据表映射文件 < ...
安装和启动json-server
安装json-server JSON-Server 是一个 Node 模块,运行 Express 服务器,你可以指定一个 json 文件作为 api 的数据源 npm i -g json-server ...
win10搭建svn服务
1,安装服务器版svnhttps://tortoisesvn.net/downloads.html查看版本 svn --version 2,创建版本仓库提倡创建公共仓库,那么可以多次增加项目svnad ...
ssh跳过knownhost文件
在平时工作中,有时候需要SSH登陆到别的Linux主机上去,但有时候SSH登陆会被禁止,并弹出如下类似提示: @@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@ ...
九度1456胜利大逃亡【BFS】
时间限制:1 秒内存限制:128 兆特殊判题:否提交:4432 解决:1616 题目描述: Ignatius被魔王抓走了,有一天魔王出差去了,这可是Ignatius逃亡的好机会.魔王住在一个城堡 ...

使用Spark进行搜狗日志分析实例——列出搜索不同关键词超过10个的用户及其搜索的关键词

使用Spark进行搜狗日志分析实例——列出搜索不同关键词超过10个的用户及其搜索的关键词的更多相关文章

随机推荐

热门专题