WordCount Analysis】的更多相关文章

1.Create a new java project, then copy examples folder from /home/hadoop/hadoop-1.0.4/src; Create a new folder named src, then Paste to the project to this folder. Error: Could not find or load main class right-click src folder, --> build Path --> U…
grunt> cat /opt/dataset/input.txt keyword1 keyword2 keyword2 keyword4 keyword3 keyword1 keyword4 keyword4 A = LOAD '/opt/dataset/input.txt' using PigStorage('\n') as (line:chararray); B = foreach A generate TOKENIZE((chararray)$0); C = foreach B gene…
1 LSA Introduction LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法.该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系:而不同的是,LSA将词和文档映射…
github地址: https://github.com/wzfhuster/software_test_tasks psp表格: PSP2.1 PSP 阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 30 20 · Estimate · 估计这个任务需要多少时间 50 40 Development 开发 300 400 · Analysis · 需求分析 (包括学习新技术) 50 80 · Design Spec · 生成设计文档 40 100 · Design Revi…
1.GitHub地址       https://github.com/noblegongzi/WordCount 2.PSP表格 PSP2.1 PSP 阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 30 50 · Estimate · 估计这个任务需要多少时间 600 840 Development 开发 600 840 · Analysis · 需求分析 30 40 · Design Spec · 生成设计文档 20 30 · Design Review · 设计复审…
1.Github地址 https://github.com/JingzheWu/WordCount 2.PSP表格 PSP2.1 PSP阶段 预估耗时 (分钟) 实际耗时 (分钟) Planning 计划 20 15 · Estimate · 估计这个任务需要多少时间 20 15 Development 开发 500 680 · Analysis · 需求分析 (包括学习新技术) 60 70 · Design Spec · 生成设计文档 30 30 · Design Review · 设计复审…
Spark初步-从wordcount开始 spark中自带的example,有一个wordcount例子,我们逐步分析wordcount代码,开始我们的spark之旅. 准备工作 把README.md文件复制到当前的文件目录,启动jupyter,编写我们的代码. README.md文件在Spark的根目录下. from pyspark.sql import SparkSession from operator import add # 初始化spark实例,并把应用命名为wordcount sp…
一.项目源代码地址 本人Gitee项目地址:https://gitee.com/yuliu10/WordCount 二.PSP表格 psp阶段 预估耗时 (分钟) 实际耗时 (分钟) 计划 30 10 估计这个任务需要多少时间 20 20 开发 600 660 需求分析 (包括学习新技术) 40 60 生成设计文档 60 30 设计复审 (和同事审核设计文档) 30 20 代码规范  10 0 具体设计 50 30 具体编码 500 600 基本功能实现 150 200 扩展功能实现 350 4…
GIT地址 https://github.com/gentlemanzq/WordCount.git GIT用户名  gentlemanzq 结对伙伴博客地址 https://home.cnblogs.com/u/Ysml/ 博客地址 https://www.cnblogs.com/gentlemanzq/ 作业链接 https://edu.cnblogs.com/campus/xnsy/SoftwareEngineeringClass1/homework/2882 这一次结对编程,怎么说呢.带…
一.Gitee地址:https://gitee.com/zjgss99/WordCount 二.项目分析: 对程序设计语言源文件统计字符数.单词数.行数,统计结果以指定格式输出到默认文件中,以及其他扩展功能,并能够快速地处理多个文件. 命令格式: wc.exe [para] <filename> [para] <filename> ... -o <filename> 基础功能: -c:统计文件中的字符数,不包括换行符: -w:统计文件中的单词数: -l:统计文件的行数:…