1. 新建Maven项目 初始Maven项目完成后,初始的配置(pom.xml)如下: 2. 配置Maven 向项目里新建Spark Core库 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-inst…
由于在MyEclipse中已经自带了jre编译环境,但由于版本太低,所以有时候需要将编译环境配置为系统的jre版本.在MyEclipse中配置jre的编译运行环境很简单,只需要全局配置一次,则所有项目都默认使用了你配置的Jre编译环境. 1.工具 MyEclipse Java JDK 2.方法/步骤   要在MyEclipse配置jre为系统安装的jre版本,前提需要下载安装Java JDK. 在MyEclipse的工具栏找到"window"->"preferences…
google-java-format plugin should intercept the “Reformat Code” action in IDEA (Ctrl+Alt+L) and apply its own rules. However, it does not work with imports for some reason, so to fix that you have to import a Java Google Code Style XML file  to your c…
概述:Spark 程序开发,调试和运行,intellij idea开发Spark java程序. 分两部分,第一部分基于intellij idea开发Spark实例程序并在intellij IDEA中运行Spark程序.第二部分,将开发程序提交到Spark local或者hadoop YARN集群运行.Github项目源码 图1,直接在intellij IDEA(社区版)中开发调试,直接run. 图2,直接在intellij IDEA(社区版)中用hadoop YARN模式. Github项目源…
Spark Java API 计算 Levenshtein 距离 在上一篇文章中,完成了Spark开发环境的搭建,最终的目标是对用户昵称信息做聚类分析,找出违规的昵称.聚类分析需要一个距离,用来衡量两个昵称之间的相似度.这里采用levenshtein距离.现在就来开始第一个小目标,用Spark JAVA API 计算字符串之间的Levenshtein距离. 1. 数据准备 样本数据如下: {"name":"Michael", "nick":&qu…
Spark Java API 之 CountVectorizer 由于在Spark中文本处理与分析的一些机器学习算法的输入并不是文本数据,而是数值型向量.因此,需要进行转换.而将文本数据转换成数值型的向量有很多种方法,CountVectorizer是其中之一. A CountVectorizer converts a collection of text documents into a vector representing the word count of text documents.…
JSF 作为 JavaEE 官方标准,在了解并掌握其基本开发技术后,对于功能要求较高.业务流程复杂的各种现代 Web 应用程序开发将会成为非常合适且强大的高效率开发利器.JSF 的开发环境搭建涉及到在 IntelliJ IDEA 中配置 Web Application Server.配置 JavaEE 基本环境.选择 JSF 相关功能模块等,之所以选择 IDEA 作为开发环境,是因为 IDEA 作为业界公认的最强 Java 集成开发环境,已逐渐成为事实上的 Java 及相关应用开发环境标准,甚至…
http://hi.baidu.com/danghj/item/7625a1be20946e43ba0e1202在eclipse中使用中文JAVA api文档Sun 官方的中文版 Java API 文档发布了,地址为: http://gceclub.sun.com.cn/download/Java_Docs/html_zh_CN.zip  , 下载后请参考如下步骤配合 eclipse3.1 使用…
算法竞赛中的常用JAVA API:PriorityQueue(优先队列) PriorityQueue 翻译过来就是优先队列,本质是一个堆, 默认情况下堆顶每次都保留最小值,每插入一个元素,仍动态维护堆顶为最小值. 初始化 PriorityQueue()//使用默认的初始容量(11)创建一个 PriorityQueue,并根据其自然顺序对元素进行排序. PriorityQueue<Integer> Q = new PriorityQueue<>(); // 初始化 常用函数 add(…
算法竞赛中的常用JAVA API :HashSet 和 TreeSet set set容器的特点是不包含重复元素,也就是说自动去重. HashSet HashSet基于哈希表实现,无序. add(E e)//如果容器中不包含此元素,则添加. clear()//清空 contains(Object o)//查询指定元素是否存在,存在返回true isEmpty()// 判空 iterator()//返回此容器的迭代器 remove// 如果指定元素在此set中则移除 size()//返回元素数量…