shell脚本处理大数据系列之(一)方法小结

转自：http://longriver.me/?p=57

方法1：

单进程处理大规模的文件速度如（上million量级）比较慢，可以采用awk取模的方法，将文件分而治之，这样可以利用充分的利用多核CPU的优势

for((i=0;i<5;i++));do

cat query_ctx.20k | awk 'NR%5=='$i'' |\

wc -l 1> output_$i 2>err_$i &

done

方法2：

另外也可以使用split的方法，或者hashkey 的办法把大文件分而治之,
该办法的缺陷是需要对大文件预处理，这个划分大文件的过程是单进程，也比较的耗时

infile=$1

opdir=querys

opfile=res

s=`date "+%s"`

while read line

do

imei=`./awk_c "$line"`

no=`./tools/default $imei 1000`

echo $line >> $opdir/$opfile-$no

done<$infile

方法3：

该方法是方法2的延伸，在预处理之后，可以使用shell脚本起多个进程来并行执行，当然为了防止进程之间因为并行造成的混乱输出，可以使用锁的办法，也可以通过划分命名的办法。下面的例子比较巧妙使用mv 操作。这一同步操作起到互斥锁的作用，使得增加进程更加灵活，只要机器资源够用，随时增加进程，都不会造成输出上的错误。

output=hier_res

input=dbscan_res

prefix1=tmp-

prefix2=res-

for file in `ls $input/res*`

do

tmp=`echo ${file#*-}`

ofile1=${prefix1}${tmp}

ofile2=${prefix2}${tmp}

if [ ! -f $output/$ofile1 -a ! -f $output/$ofile2 ];then

touch $output/aaa_$tmp

mv $output/aaa_$tmp $output/$ofile1

if [ $? -eq 0 ]

then

echo "dealing "$file

cat $file | python hcluster.py 1> $output/$ofile1 2> hier.err

mv $output/$ofile1 $output/$ofile2

fi

done

shell脚本处理大数据系列之(一)方法小结的更多相关文章

shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中
shell编程系列24--shell操作数据库实战之利用shell脚本将文本数据导入到mysql中利用shell脚本将文本数据导入到mysql中需求1:处理文本中的数据,将文本中的数据插入到mys ...
大数据系列（3）——Hadoop集群完全分布式坏境搭建
前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
玩转大数据系列之Apache Pig高级技能之函数编程（六）
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...
大数据系列（5）——Hadoop集群MYSQL的安装
前言有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...
大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置
前言经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...
大数据系列（2）——Hadoop集群坏境CentOS安装
前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...
大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践
之前介绍过关于HBase 0.9.8版本的部署及使用,本篇介绍下最新版本HBase1.2.4的部署及使用,有部分区别,详见如下: 1. 环境准备: 1.需要在Hadoop[hadoop-2.7.3] ...
大数据系列之分布式数据库HBase-0.9.8安装及增删改查实践
若查看HBase-1.2.4版本内容及demo代码详见大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践 1. 环境准备: 1.需要在Hadoop启动正常情况下安 ...
大数据系列之Flume+kafka 整合
相关文章: 大数据系列之Kafka安装大数据系列之Flume--几种不同的Sources 大数据系列之Flume+HDFS 关于Flume 的一些核心概念: 组件名称功能介绍 Agent ...

随机推荐

戴文的Linux内核专题：08内核配置（5）
转自Linux中国 Linux内核拥有许多可以配置的特性,接下来我们还有许多要配置. 下一个可以配置的特性是x86的随机数生成器(x86 architectural random number gen ...
Vi不显示insert
edit file :/etc/vim/vimrc.tiny set compatible -> set nocompatible or install vim
Windows Azure上搭建SSTP VPN
一.服务器设置首先,从0开始,你需要创建一个新的VM.我选择Windows Server 2012 R2,所有步骤和创建普通VM都一样,但最后在防火墙设置里一定要打开TCP 443端口: 创建完成后 ...
hdu1078 bfs
//Accepted 468 KB 812 ms //bfs+dp #include <cstdio> #include <cstring> #include <iost ...
PAT 10-0 说反话
我写了两种实现方法,其中第二种是参考Yomman园友的(http://www.cnblogs.com/yomman/p/4271949.html).我的方法(方法一)是用一个数组存放输入的字符串,另一 ...
Linux下控制器IO地址
在Linux下使用cat /proc/ioports可以查看控制器使用的IO地址范围
Node.js +Express+MongoDB+mogoose+ejs+bootstrap+jquery
Node.js + MongoDB 项目实战(二) 创建项目在项目实战(一)中,已经配置好了开发环境(详见:http://www.cnblogs.com/jameslong/articles/34 ...
vijos 1776 关押罪犯
带权并查集+贪心. #include<iostream> #include<cstdio> #include<cstring> #include<algori ...
文件操作I
<html> <head> <meta charset="utf-8"> </head> <body> <?php ...
如何解决火狐FF里Input标签刷新页面后仍然保存之前输入的内容的方法。
直接在input 标签里增加 autocomplete="off".火狐默认为 on.

shell脚本处理大数据系列之(一)方法小结

shell脚本处理大数据系列之(一)方法小结的更多相关文章

随机推荐

热门专题