Spark Week1 HomeWork

package wikipedia

import org.apache.spark.SparkConf

import org.apache.spark.SparkContext

import org.apache.spark.SparkContext._

import org.apache.spark.rdd.RDD

import org.apache.log4j.{Level,Logger}

case class WikipediaArticle(title: String, text: String) {

    /**

      * @return Whether the text of this article mentions `lang` or not

      * @param lang Language to look for (e.g. "Scala")

      */

    def mentionsLanguage(lang: String): Boolean = text.split(' ').contains(lang)

}

object WikipediaRanking {

    //  设置日志

    Logger.getLogger("org").setLevel(Level.ERROR)

    val langs = List(

        "JavaScript", "Java", "PHP", "Python", "C#", "C++", "Ruby", "CSS",

        "Objective-C", "Perl", "Scala", "Haskell", "MATLAB", "Clojure", "Groovy")

    val conf: SparkConf = new SparkConf()

    val sc: SparkContext = new SparkContext("local[*]", "Wikipedia")

    // Hint: use a combination of `sc.textFile`, `WikipediaData.filePath` and `WikipediaData.parse`

    val wikiRdd: RDD[WikipediaArticle] = sc.textFile(WikipediaData.filePath).map(WikipediaData.parse)

    /** Returns the number of articles on which the language `lang` occurs. 返回lang语言出现的文章篇数

      *  Hint1: consider using method `aggregate` on RDD[T].

      *  Hint2: consider using method `mentionsLanguage` on `WikipediaArticle`

      */

    def occurrencesOfLang(lang: String, rdd: RDD[WikipediaArticle]): Int =

        rdd.filter(_.mentionsLanguage(lang)).count().toInt

    /* (1) Use `occurrencesOfLang` to compute the ranking of the languages

     *     (`val langs`) by determining the number of Wikipedia articles that

     *     mention each language at least once. Don't forget to sort the

     *     languages by their occurrence, in decreasing order!

     *

     *   Note: this operation is long-running. It can potentially run for

     *   several seconds.

     */

    def rankLangs(langs: List[String], rdd: RDD[WikipediaArticle]): List[(String, Int)] = {

        rdd.cache()     // 允许数据存储在内存

        langs.map(lang => (lang, occurrencesOfLang(lang, rdd))).sortBy(_._2).reverse

        /*

        对于langs的每一个元素找到包含它的文章篇数。

        其中sortBy(_._2)指根据occurrencesOfLang(lang, rdd))来排序,

        如果是sortBy(_._1)则根据lang来排序

        默认从小到大排序，所以加上.reverse

        */

    }

    /* Compute an inverted index of the set of articles, mapping each language

     * to the Wikipedia pages in which it occurs.

     */

    def makeIndex(langs: List[String], rdd: RDD[WikipediaArticle]): RDD[(String, Iterable[WikipediaArticle])] = {

        val articles_Languages = rdd.flatMap(article => {

            langs.filter(lang => article.mentionsLanguage(lang))

                                        .map(lang => (lang, article))

        })

        articles_Languages.groupByKey

    }

    /* (2) Compute the language ranking again, but now using the inverted index. Can you notice

     *     a performance improvement?

     *

     *   Note: this operation is long-running. It can potentially run for

     *   several seconds.

     */

    def rankLangsUsingIndex(index: RDD[(String, Iterable[WikipediaArticle])]): List[(String, Int)] =

        index.mapValues(_.size).sortBy(-_._2).collect().toList

    /* (3) Use `reduceByKey` so that the computation of the index and the ranking are combined.

     *     Can you notice an improvement in performance compared to measuring *both* the computation of the index

     *     and the computation of the ranking? If so, can you think of a reason?

     *

     *   Note: this operation is long-running. It can potentially run for

     *   several seconds.

     */

    def rankLangsReduceByKey(langs: List[String], rdd: RDD[WikipediaArticle]): List[(String, Int)] = {

        rdd.flatMap(article => {

            langs.filter(article.mentionsLanguage) // 相当于langs.filter(lang => article.mentionsLanguage(lang)) 或者 langs.filter(article.mentionsLanguage(_))

                .map((_, 1))

        }).reduceByKey(_ + _)

            .sortBy(_._2)

            .collect()

            .toList

            .reverse

    }

    def main(args: Array[String]) {

        /* Languages ranked according to (1) */

        val langsRanked: List[(String, Int)] = timed("Part 1: naive ranking", rankLangs(langs, wikiRdd))

        /* An inverted index mapping languages to wikipedia pages on which they appear */

        def index: RDD[(String, Iterable[WikipediaArticle])] = makeIndex(langs, wikiRdd)

        /* Languages ranked according to (2), using the inverted index */

        val langsRanked2: List[(String, Int)] = timed("Part 2: ranking using inverted index", rankLangsUsingIndex(index))

        /* Languages ranked according to (3) */

        val langsRanked3: List[(String, Int)] = timed("Part 3: ranking using reduceByKey", rankLangsReduceByKey(langs, wikiRdd))

        /* Output the speed of each ranking */

        println(timing)

        sc.stop()

    }

    val timing = new StringBuffer

    def timed[T](label: String, code: => T): T = {

        val start = System.currentTimeMillis()

        val result = code

        val stop = System.currentTimeMillis()

        timing.append(s"Processing $label took ${stop - start} ms.\n")

        result

    }

}

Spark Week1 HomeWork的更多相关文章

CentOS7 安装spark集群
Spark版本 1.6.0 Scala版本 2.11.7 Zookeeper版本 3.4.7 配置虚拟机 3台虚拟机,sm,sd1,sd2 1. 关闭防火墙 systemctl stop firewa ...
【cs229-Lecture2】Linear Regression with One Variable (Week 1)(含测试数据和源码)
从Ⅱ到Ⅳ都在讲的是线性回归,其中第Ⅱ章讲得是简单线性回归(simple linear regression, SLR)(单变量),第Ⅲ章讲的是线代基础,第Ⅳ章讲的是多元回归(大于一个自变量). 本文的 ...
Spark小课堂Week1 Hello Spark
Spark小课堂Week1 Hello Spark 看到Spark这个词,你的第一印象是什么? 这是一朵"火花",官方的定义是Spark是一个高速的.通用的.分布式计算系统!!! ...
Week1 Team Homework #2 Introduction of team member with photos
小组成员介绍组长:黄剑锟 11061164 组员:顾泽鹏 11061160 组员:周辰光 11061154 组员:龚少波 11061167 组 ...
团队博客作业Week1 Team Homework #3软件工程在北航
这次我们采访了一位大四的学姐,让她简单地谈了谈去年学习软件工程的经历和感受. 在完成软件工程大作业的过程中,由于计划安排与实际脱节,导致时间前松后紧,平均每周花在这门课上的时间大约有8个小时. 项目完 ...
Week1 Team Homework #1: Study the projects done by previous student groups
我们研究了学长的项目:百度3D地图API的调用.下面是我们对该项目的一些看法: 优点: 界面清晰各类之间调用及其他关系容易理清. 缺点: 前段html代码过于冗杂,很多(div)块间的层次关系不 ...
Week1 Team Homework #3: 软件工程在北航
在组内成员的共同努力,我们采访了几个学长学姐,顺利完成任务.反馈信息如下: 平均每周花在这门课上的时间平均写的代码总行数学到的最有用的部分最没用的部分 <软件工程>最应该改进的地方 ...
Week1 Team Homework #2: Introduction of each team member
王洛书我是来自浙江的王洛书.热爱历史,热爱美食,热爱代码,热爱博物馆.很喜欢软件工程这门课的上课方式,也很喜欢组里的这些同学.希望能大家一起努力,在这门课上真正地收获能力上的提升! 陈睿翊
Week1 Team Homework #1 from Z.XML-对于学长项目《shield star》的思考和看法
试用了一下学长黄杨等人开发的<shield star>游戏. 其实作为一个学弟,我对cocos2d-x引擎还算是比较了解,所以对于这样一款很“典型 ...

随机推荐

全面解析ECMAScript 6模块系统
快速使用Romanysoft LAB的技术实现 HTML 开发Mac OS App,并销售到苹果应用商店中. <HTML开发Mac OS App 视频教程> 土豆网同步更新:http: ...
原生Js汉语拼音首字母匹配城市名/自动提示列表
根据城市的汉语名称首字母把城市排序,基本思路: 1.处理数据,按照需要的格式分别添加{HOT:{hot:[],ABCDEFG:{a:[1,2,3],b:[1,2,3]},HIGHLMN:{},OPQR ...
MongoDB自学日记2——权限
首先应该明确的是为什么要学MongoDB.OK,如果是仅仅出于对于流行技术的原始兴趣,可能并不能深入学习,还必须有应用需求.刚开始学习MongoDB,因为以前对其它数据库的了解也不是特别深入,所以许多 ...
C#基础原理拾遗——引用类型的值传递和引用传递
以前写博客不深动,只搭个架子,像做笔记,没有自己的思考,也没什么人来看.这个毛病得改,就从这一篇开始- 最近准备面试,深感基础之重要,奈何我不是计算机科班出身,基础方面有些捉襟见肘.短期怎么补?做面实 ...
MySQL之SQL优化详解（三）
目录 MySQL 之SQL优化详解(三) 1. 索引优化 2. 剖析报告:Show Profile MySQL 之SQL优化详解(三) 1. 索引优化一旦建立索引,select 查询语句的where ...
Redi缓存注意事项
缓存使用的场景在一个高频访问的应用系统中,每次用户的请求需要去存储中获取数据,会对数据库造成很大的压力.容易导致数据库的奔溃.所以才会出现缓存来分担一部分的数据库的压力. 具体会产生数据库访问压力的 ...
系统学习 Java IO (十三)----字符读写 Reader/Writer 及其常用子类
目录:系统学习 Java IO---- 目录,概览 Reader Reader 类是 Java IO API 中所有 Reader 子类的基类. Reader 类似于 InputStream ,除了它 ...
JAVA复习笔记01
学了一学期的JAVA,临近期末,整理了一些JAVA考试中需要掌握的点,记录在这里. 1.编译多个JAVA文件,运行程序 (1) javac .java .java java Main (2) java ...
JS中【“逻辑运算”，“面试题：作用域问题”，“dom对象”】这些问题的意见见解
1.逻辑运算 || && ! ||:遇到第一个为true的值就中止并返回 &&:遇到第一个为false的值就中止并返回,如果没有false值,就返回最后一个不是fa ...
navicat远程连接mysql10060
navicat连接mysql时,出现2003-Can't connect to MySql server on '47.106.228.160'(10060"Unknow error&quo ...

Spark Week1 HomeWork

Spark Week1 HomeWork的更多相关文章

随机推荐

热门专题