对于txt文本类数据,优先采用shell脚本,实在不行才用Python,Java,MySQL 1) Shell命令行或脚本的处理速度极快,比Java快得多. 2) Shell代码量少,几个命令就能完成Python几十行.Java上百行代码的工作,例如 $ cut -f 2 data.txt | sort | uniq -c | head -10000>result.txt这一行就完成了对切分出data.txt的第2列,然后对其排序,统计出各个行出现的次数,去重之后取出前10000行数据,并将这1…
02.体验Spark shell下RDD编程 1.Spark RDD介绍 RDD是Resilient Distributed Dataset,中文翻译是弹性分布式数据集.该类是Spark是核心类成员之一,是贯穿Spark编程的始终.初期阶段,我们可以把RDD看成是Java中的集合就可以了,在后面的章节中会详细讲解RDD的内部结构和工作原理. 2.Spark-shell下实现对本地文件的单词统计 2.1思路 word count是大数据学习的经典案例,很多功能实现都可以归结为是word count…
网络版shell之网络编程练习篇--telnet服务端   以前写过一个shell命令解释器,对与shell命令解释器的执行流程有了清晰的认识,这段时间学习网络编程,至于网络编程的细节以及知识点,已经在上 一遍博客中,转载了从网上摘的文章,基本概括了网络编程的主要api,而对于程序员,更重要的是解决实际问题的能力,所以练习是非常重要的,现在,我们在 一起shell命令解释器的基础上,写一个基于socket网络编程的网络版shell命令解释器,也可以称之为telnet服务端.  telnet服务端…
一.awk.变量.运算符.if多分支 awk:shell编辑器的一种文本处理工具/命令,同grep.sed一样均可解释正则.具体运用下面awk文本处理有详细说明. 变量:分为系统变量和临时变量.变量一般由字母,下划线_ 开头,其他部分由字母.下划线.数字组成. 运算符 1.算术运算符:加+ 减- 乘* 除/ 取余% 2.关系操作符:大于> 小于< 大于等于>= 小于等于<= 等于== 不等于!= 与&& 或|| 3.赋值运算符:赋值= +=:x=x+1等同于x+=1…
现有如下题目:有一个海量文本,存储的是汉语词语,要求从中找出前K个出现频率最高的词语,写出最优算法,兼顾时间和空间复杂度. 思路分析:熟悉搜索引擎的程序员,应该不是难题.用传统的HashMap是无法解决的,因为数据量非常庞大的时候,空间复杂度会导致程序运行时,频繁执行MinorGC和MajorGC,最终JVM会宕掉.之前写的字母排列算法的时候,当输出100多万条数据的时候,JVM就宕掉了,下面用自平衡的三叉树来解决此问题. 第一步:对文本进行排序和折中处理,更新文本,要要用到pinyin4j项目…
Shell脚本语言是实现linux系统自动化管理的重要且必要的工具,几乎每一个合格的linux系统管理员或者高级运维工程师都要熟练shell脚本语言的编写,只有这样才能提升工作效率,解决工作中的重复劳动.(shell就是运维中的米饭,馒头,其他高级语言都是锦上添花,运维首先要掌握shell,再去研究其他) 一.什么是shell 和shell脚本 shell是一个命令解释器,在操作系统的最外层,负责直接与用户对话,把用户的输入解释给操作系统,并处理各种各样的操作系统的输出结果,输出到屏幕反馈给用户…
sub test()with activesheet  .usedrange.numberformatlocal=""  .usedrange=.usedrange.valueend withend sub一般运行一次就可以将全部文本型数字变成数值型了 Excel.Application excel = new Excel.Application(); //excel.Visible = true; Excel.Workbook book = excel.Workbooks.Open(…
导读 本文为博文linux —— shell 编程(整体框架与基础笔记)的第4小点的拓展.(本文所有语句的测试均在 Ubuntu 16.04 LTS 上进行) 目录 基本文本处理 流编辑器sed awk模式扫描与处理语言 1.基本文本处理 sort :用于排序,常用参数 -t 指定一行的分隔符 -k 指定具体排序的规则 -d 按字典序排列  -f 忽略大小写  -u (unique)丢弃相同指定字段的记录 unique:报告或删除文件中重复的行. -c 在输出行前加上出现的次数    -d  (…
1:grep命令: grep -v  "char"  file_name 匹配不包括"char"的文本 grep -n -w "char" file_name 完整匹配某个字符 grep ^s $s  分别为匹配行首为s的 或者行末为s的文本. 2:tr 命令 tr set1  set2   替换集合set1 为set2 tr -s set1  压缩字符 tr -t  ":"     指定分隔符 默觉得空格 tr -d &qu…
cut 截取自定列 可以按照某个字符进行分割,然后取出其中的指定列: [root@iz8vbbqbnh4ug2q9so5jflz logs]# --.txt /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /Dec/::: +] - /De…