用几条shell命令快速去重10G数据】的更多相关文章

试想一下,如果有10G数据,或者更多:怎么才能够快速地去重呢?你会说将数据导入到数据库(mysql等)进行去重,或者用java写个程序进行去重,或者用Hadoop进行处理.如果是大量的数据要写入数据库也不是一件容易的事情,首先你需要开发一个程序将数据写入数据库,然后再用数据库的select distinct或者group by进行去重.如果是一次性的工作,这种方式显得就比较笨拙了.那么有没有更好的办法呢?下面记录一下我是怎么从10G数据里面迅速去重的.这里采用shell脚本的方式进行处理.如果您…
java ssh远程服务器并执行多条命令 import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.io.UnsupportedEncodingException; import java.util.Calendar; import org.apache.commons.lang3.Stri…
1.环境 局域网环境有3台Linux服务器,配置host文件 [root@master1 ~]# vim /etc/hosts 192.168.8.201 master1 192.168.8.202 slave1 192.168.8.203 slave2 2.配置master1免密码访问slave1和slave2 [root@master1 ~]# cd .ssh/ # 若没有该目录,请先执行一次ssh localhost [root@master1 .ssh]# ssh-keygen -t r…
windows: route add 158.0.0.0 mask 255.0.0.0 158.137.38.1 metric 3 linux: netstat -apn  查看所有端口使用,可查看端口被哪个程序和pid的进程占用 kill -9 pid       无条件结束进程号pid grep -C 5 foo file 显示file文件里匹配foo字串那行以及上下5行grep -B 5 foo file 显示foo及前5行grep -A 5 foo file 显示foo及后5行 ps -…
from: http://blog.csdn.net/wangchunyu11155/article/details/53635602 [用 exp 数 据 导 出]: 1 将数据库TEST完全导出,用户名system 密码manager 导出到D:\daochu.dmp中   exp system/manager@TEST file=d:\daochu.dmp full=y 2 将数据库中system用户与sys用户的表导出   exp system/manager@TEST file=d:\…
由于近期要处理一些 JSON 数据格式.一大早经过一番搜索后,终于找到了 jq 这个非常棒的工具.jq 同意你直接在命令行下对 JSON 进行操作,包含分片.过滤.转换等等. 首先在mac下安装jq.使用brew install jq就能够了,前提是安装了homebrew.假设在linux ubuntu下.应该能够使用sudo apt-get install jq安装. 让我们通过几个样例来说明 jq 的功能: 一.输出格式化,美丽的打印效果 假设我们用文本编辑器打开 JSON,有时候可能看起来…
前面写过一篇通过shell脚本去重10G数据的文章,见<用几条shell命令快速去重10G数据>.然而今天又碰到另外一个业务,业务复杂度比上次的单纯去重要复杂很多.找了很久没有找到相应的办法,于是用shell脚本程序去处理.具体业务逻辑: 1.首先根据给定指定进行排序 2.排序后对给定字段进行去重,去重的规则如下: a)排序后如果相邻N行给定字段值相同的行数不超过两行,则两行都保留. a)排序后如果相邻N行给定字段值相同的行数超过两行,则保留首行和尾行. 就这样一个业务逻辑,其实看起来并不是太…
adb 概述 SDK的Tools文件夹下包含着Android模拟器操作的重要命令adb,adb的全称为(Android Debug Bridge就是调试桥的作用.通过adb我们可以在Eclipse中方面通过DDMS来调试Android程序.借助这个工具,我们可以管理设备或手机模拟器的状态.还可以进行以下的操作:   1.快速更新设备或手机模拟器中的代码,如应用或Android 系统升级: 2.在设备上运行shell命令: 3.管理设备或手机模拟器上的预定端口: 4.在设备或手机模拟器上复制或粘贴…
adb是Android重要工具之一,以提供强大的特性,例如复制文件到设备或从设备复制文件.可以使用Android Shell命令行参数连接到手机本身,并发送基本的 shell 命令. 进入命令行,使用 adb shell 进入到Android Shell命令模式,注意,这时候模拟器或者手机要启用并且正确接通 在这个Android Shell命令环境中,可以: 显示网络配置,网络配置可显示多个网络连接.注意这多个网络连接: lo 是本地或 loopback 连接. tiwlan0 是 WiFi 连…
#!/bin/sh ################### #### 环境变量 ### ################### #主程序目录 #APP_HOME=/apps/svr/apache-tomcat-/webapps APP_HOME=/apps/svr/tomcat/webapps #要解析的文件目录 APP_JENKINS_HOME=/apps/$(date +%Y%m%d) APP_ROOT=XX APP_NAME_01=XXX_01 APP_NAME_02=XXX_01 APP…