package com.yl.wordcount import java.io.File import org.apache.spark.{SparkConf, SparkContext} import scala.collection.Iteratorimport scala.io.Source /** * wordcount进行排序并排除停用词 */object WordCountStopWords { def main(args: Array[String]) { val conf = n…
scala> val textFile = sc.textFile("/Users/admin/spark-1.5.1-bin-hadoop2.4/README.md") scala> val topWord = textFile.flatMap(_.split(" ")).filter(!_.isEmpty).map((_,1)).reduceByKey(_+_).map{case (word,count) =>(count,word)}.sor…
前言 项目中运用了Spark进行Kafka集群下面的数据消费,本文作为一个Spark入门文章/笔记,介绍下Spark基本概念以及MapReduce模型 Spark的基本概念: 官网: http://spark.apache.org/ 给出了如下概念 Apache Spark™ is a unified analytics engine for large-scale data processing. Apache Spark™是用于大规模数据处理的统一分析引擎.当然,它也适用于AI人工智能. A…
示例一:统计所有单词出现的次数 1.在本地创建文件并上传到hdfs中 #vin data.txt //将文件上传到hadoop的根目录下 #hdfs dfs -put data.txt / 2.在spark中,创建一个RDD并读取文件 %spark var data = sc.textFile("/data.txt") data.collect 3.将读取到的文本使用flatMap方法(数据流映射)组合split方法拆分为单个单词 //注意:split("")引号中…
转载自:https://www.ibm.com/developerworks/cn/cognitive/library/cc-1606-spark-seniment-analysis/index.html IBM 公司在 2015 年对外宣告了一个新的科技和商务时代的来临—认知时代.这个巨大的转变,来自 IBM 对技术和商业领域的三个重要的洞察力[1].第一,这个世界被数据所充斥.第二,这个世界通过代码被改造.第三,认知计算的出现.其中,认知计算可以: 通过感知与互动,理解非结构化数据 通过生成…
概述 了解如何在Python中删除停用词与文本标准化,这些是自然语言处理的基本技术 探索不同的方法来删除停用词,以及讨论文本标准化技术,如词干化(stemming)和词形还原(lemmatization) 在Python中使用NLTK,spaCy和Gensim库进行去除停用词和文本标准化 介绍 多样化的自然语言处理(NLP)是真的很棒,我们以前从未想象过的事情现在只是几行代码就可做到.这真的令人开心. 但使用文本数据会带来一系列挑战.机器在处理原始文本方面有着较大的困难.在使用NLP技术处理文本…
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1.1  运行环境说明 1.1.1 硬软件环境 线程,主频2.2G,10G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-812388 l  虚拟机操作系统:CentOS6.5 64位,单核 l  虚拟机运行环境: Ø  JDK:1.7.0_55 64位 位) Ø  Scala:2.10.4 Ø  Spark:1.1.0(需要编译) Ø  Hive:0.13.1…
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .编译Hadooop 1.1 搭建环境 1.1.1 安装并设置maven 1. 下载maven安装包,建议安装3.0以上版本,本次安装选择的是maven3.0.5的二进制包,下载地址如下 http://mirror.bit.edu.cn/apache/maven/maven-3/ 2. 使用ssh工具把maven包上传到/home/hadoop/upload目录 3. 解压缩apache-maven…
  在我们的日常生活和工作中,从文本中提取时间是一项非常基础却重要的工作,因此,本文将介绍如何从文本中有效地提取时间.   举个简单的例子,我们需要从下面的文本中提取时间: 6月28日,杭州市统计局权威公布<2019年5月月报>,杭州市医保参保人数达到1006万,相比于2月份的989万,三个月暴涨16万人参保,傲视新一线城市. 我们可以从文本有提取6月28日,2019年5月, 2月份这三个有效时间.   通常情况下,较好的解决思路是利用深度学习模型来识别文本中的时间,通过一定数量的标记文本和合…
第三篇 (书中 3.4 内容) 今天还是要把昨天项目运行后,EXML文件里的界面没有出现的问题解决了才行. 去了群里,没人回.去了官网看文档,看不懂. 不过倒是看到了一个好东西: 还挺便宜啊,一个月要的费用也少. 难道又要我不看书?转战阵地?总有一种走迷宫的赶脚......算了,还是看书吧.ε=(´ο`*)))唉 迷茫.徘徊.郁闷.忧郁.呆滞...... 点开看看代码 发现好像还是可以填写路径的,我就试了一下. 乖乖!居然可以了,哈哈!!! 接着往下继续看. 书中提到了三点内容: 1.4.x版本…