背景: 搜索引擎在build全量时,会产生数G的xml的中间文件,我需要去查询这些中间文件中,是否有某个特殊的字符.xml文件有很多,每个都有几百M,存储在hdfs上,而且是以gz结尾的文本格式的文件. 查找时,我是写了一个实现Tool接口,继承自Configured类的MapReduce,这样就可以传入自定义的参数给我的MapReduce程序了.需要在文件里Grep的内容,就是以参数的形式传入的. 写完代码调试时,问题来了,会报这个异常: 14/10/17 12:06:33 INFO mapr…
背景: 目前工作中遇到一大批的数据,如果不压缩直接上传到ftp上就会遇到ftp空间资源不足问题,没办法只能压缩后上传,上穿完成后在linux上下载.但是linux客户端的资源只有20G左右一个压缩包解压后就要占用16G左右的空间,因此想在linux上直接解压已经太折腾了(因为我们一共需要处理的这样的压缩包包含有30个左右). 解决方案: 先把linux上下载到的zip压缩包上传到hdfs,等待所有zip压缩包都上传完成后,开始使用程序直接在读取hdfs上的压缩包文件,直接解压到hdfs上,之后把…
1. 假如后缀中还有 .tar.gz 的文件通过 pip 命令进行安装步骤. .单击 .tar.gz结尾的文件,并且对文件进行解压,进入到解压目录中,通过python命令进行安装. 命令如下:在dos命令行中输入: 进入到目录名中>python3 setup.py install 2. 假如后缀中还有 .whl文件的通过pip命令进行安装 解释:其实 .whl 文件本质上面是一个 .zip 包格式. 例如安装:django-1.10.3 -py2.py3-none-any.whl 安装命令如下:…
mapmap读取不同格式的文件这个问题一直就有,之前的读取方式是在map里获取文件的名称,依照名称不同分不同的方式读取,比如以下的方式 //取文件名 InputSplit inputSplit = context.getInputSplit(); String fileName = ((FileSplit) inputSplit).getPath().toString(); if(fileName.contains("track")) { } else if(fileName.cont…
不多说,直接上代码.  代码 package zhouls.bigdata.myWholeHadoop.HDFS.hdfs7; import java.io.IOException;import java.net.URI;import java.net.URISyntaxException;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FSDataInputStream;import org.apa…
今天在Ubuntu11.10中安装Google chrome浏览器是遇到了问题,下载好的“.deb”格式的安装文件google-chrome-stable.deb双击后或者右键快捷菜单选择 Synaptic Package Manager 打开时均提示错误,改用命令的方式安装: dpkg -i  google-chrome-stable.deb 提示缺少一个依赖的软件包,按照提示安装完成后 Google Chrome浏览器顺利的安装完成.鉴于我们搞开发的人士或者一些linux爱好者需要时常在li…
.gz和.bz2都是linux下压缩文件的格式,有点类似windows下的.zip和.rar文件..bz2和.gz的区别在于,前者比后者压缩率更高,后者比前者花费更少的时间. 也就是说同一个文件,压缩后,.bz2文件比.gz文件更小,但是.bz2文件的小是以花费更多的时间为代价的.现将两种压缩格式在linux的常用操作总结如下: 对文件直接压缩,两种格式可使用如下命令: [root@ ~]#gzip 5201351.txt //将5201351.txt文件压缩成5201351.txt.gz [r…
<?php/*把内容写到 csv 格式的文件中 基本思路是:1.用 $fp = fopen("filename", 'mode')打开一个csv文件,可以是打开时才建立的2.用putcsv($fp, $array); 读取 csv 格式的文件内容基本思路是:1.用$fp = fopen("file.csv", "mode") 打开一个csv文件;2.用fgetcsv($fp[,....])读取里面的内容,返回是数组形式,[,..]可选参数…
在以前使用hadoop的时候因为mahout里面很多都要求输入文件时序列文件,所以涉及到把文本文件转换为序列文件或者序列文件转为文本文件(因为当时要分析mahout的源码,所以就要看到它的输入文件是什么,文本比较好看其内容).一般这个有两种做法,其一:按照<hadoop权威指南>上面的方面直接读出序列文件然后写入一个文本:其二,编写一个job任务,直接设置输出文件的格式,这样也可以把序列文件读成文本(个人一般采用这样方法).时隔好久,今天又重新试了下,居然不行了?,比如,我要编写一个把文本转为…
hadoop是基于java的数据计算平台,引入第三方库,例如C语言实现的开发包将会大大增强数据分析的效率和能力. 通常在是用一些工具的时候都要用到一些配置文件.资源文件等.接下来,借一个例子来说明hadoop上面如何使用JNI.以及调用资源文件. 首先介绍一下ICTClass,ICTClass是中国科学院开发的一个分词软件(ICTClass官网).该套软件采用C/C++编写.ICTClass虽然支持java,但是必须使用到的JNI技术.因此,在使用ICTClass之前需要配置好JNI资源以及IC…