附录C 准备NCDC气象数据

这里首先简要介绍如何准备原始气象数据文件,以便我们能用Hadoop对它们进行分析。如果打算得到一份数据副本供Hadoop处理,可按照本书配套网站(网址为http://www.hadoopbook.com/)给出的指导进行操作。接下来,首先说明如何处理原始的气象文件。

原始数据实际是一组经过bzip2压缩的tar文件。每个年份的数据单独放在一个文件中。部分文件列举如下:


  1. 1901.tar.bz2
  2. 1902.tar.bz2
  3. 1903.tar.bz2
  4. ...
  5. 2000.tar.bz2

各个tar文件包含一个gzip压缩文件,描述某一年度所有气象站的天气记录。(事实上,由于在存档中的各个文件已经预先压缩过,因此再利用bzip2对存档压缩就稍显多余了)。示例如下:


  1. % tar jxf 1901.tar.bz2
  2. % ls -l 1901 | head
  3. 011990-99999-1950.gz
  4. 011990-99999-1950.gz
  5. ...
  6. 011990-99999-1950.gz

由于气象站数以万计,所以整个数据集实际上是由大量小文件构成的。鉴于Hadoop对少量的大文件的处理更容易、更高效(参见7.2.1节),所以在本例中,我们将每个年度的数据解压缩到一个文件中,并以年份命名。上述操作可由一个MapReduce程序来完成,以充分利用其并行处理能力的优势。下面具体看看这个程序。

该程序只有一个map函数,无reduce函数,因为map函数可并行处理所有文件操作,无需整合步骤。这项处理任务能够用一个Unix脚本进行处理,因而在这里使用面向MapReduce的Streaming接口比较恰当。请看范例C-1。

范例C-1. 利用bash脚本来处理原始的NCDC数据文件并将其存储在HDFS中

Example C-1. Bash script to process raw NCDC datafiles and store them in HDFS
#!/usr/bin/env bash

# NLineInputFormat gives a single line: key is offset, value is S3 URI
read offset s3file
#读取每一行 第一个参数到offset 第二个打牌s3file
# Retrieve file from S3 to local disk
echo "reporter:status:Retrieving $s3file" >&2
$HADOOP_HOME/bin/hadoop fs -get $s3file . # Un-bzip and un-tar the local file
target=`basename $s3file .tar.bz2`
mkdir -p $target
echo "reporter:status:Un-tarring $s3file to $target" >&2
tar jxf `basename $s3file` -C $target # Un-gzip each station file and concat into one file
echo "reporter:status:Un-gzipping $target" >&2
for file in $target/*/*
do
gunzip -c $file >> $target.all
echo "reporter:status:Processed $file" >&2
done # Put gzipped version into HDFS
echo "reporter:status:Gzipping $target and putting in HDFS" >&2
gzip -c $target.all | $HADOOP_HOME/bin/hadoop fs -put - gz/$target.gz

输入是一个小的文本文件(ncdc_files.txt),列出了所有待处理文件(这些文件放在S3文件系统中,因此能够以Hadoop所认可的S3 URI的方式被引用)。示例如下:


  1. s3n://hadoopbook/ncdc/raw/isd-1901.tar.bz2
  2. s3n://hadoopbook/ncdc/raw/isd-1902.tar.bz2
  3. ...
  4. s3n://hadoopbook/ncdc/raw/isd-2000.tar.bz2

通过将输入格式指定为NLineInputFormat,每个mapper接受一行输入(包含必须处理的文件)。处理过程在脚本中解释,但简单说来,它会解压缩bzip2文件,然后将该年份所有文件整合为一个文件。最后,该文件以gzip进行压缩并复制至HDFS之中。注意,使用指令hadoop fs –put - 能够从标准输入中,获得数据。

状态消息输出到“标准错误”(以reporter:status为前缀),可以解释为MapReduce状态更新。这告诉Hadoop该脚本正在运行,并未挂起。

运行Streaming作业的脚本如下:


  1. % hadoop jar $HADOOP_INSTALL/contrib/streaming/hadoop-*-streaming.jar \
  2. -D mapred.reduce.tasks=0 \
  3. -D mapred.map.tasks.speculative.execution=false \
  4. -D mapred.task.timeout=12000000 \
  5. -input ncdc_files.txt \
  6. -inputformat org.apache.hadoop.mapred.lib.NLineInputFormat \
  7. -output output \
  8. -mapper load_ncdc_map.sh \
  9. -file load_ncdc_map.sh

易知,这是一个“只有map”的作业,因为reduce任务数为0。以上脚本还关闭了推测执行(speculative execution),因此重复的任务不会写相同的文件(6.5.3节所讨论的方法也是可行的)。任务超时参数被设置为一个比较大的值,使得Hadoop不会杀掉那些运行时间较长的任务(例如,在解档文件或将文件复制到HDFS时,或者当进展状态未被报告时。)

最后,调用distcp将文件从HDFS中复制出来,再存档到S3文件系统中。

附录C 准备NCDC气象数据(加解释)的更多相关文章

  1. pyhton读取json格式的气象数据

    原文关于读取pm25.in气象数据的pyhton方法,以及浅析python json的应用 以pm25.in网站数据为例. 1.方法介绍 首先感谢pm25.in提供了优质的空气污染数据,为他们的辛勤劳 ...

  2. 基于python的《Hadoop权威指南》一书中气象数据下载和map reduce化数据处理及其可视化

    文档内容: 1:下载<hadoop权威指南>中的气象数据 2:对下载的气象数据归档整理并读取数据 3:对气象数据进行map reduce进行处理 关键词:<Hadoop权威指南> ...

  3. JQuery 之 在数据加载完成后才自动执行函数

    数据加载完成执行: $(window).load(function(){ ... }); 进入页就执行,不论等数据是否加载完成: $(document).ready(function(){ ... } ...

  4. GreenPlum数据加载

    1. copy命令 对于数据加载,GreenPlum数据库提供copy工具,copy工具源于PostgreSQL数据库,copy命令支持文件与表之间的数据加载和表对文件的数据卸载.使用copy命令进行 ...

  5. 中国气象网 气象数据开放平台 API用法 (Android)

    因为要做个天气应用.须要找个天气的API.上网上搜了下都是那几个,并且基本都过时了.百度有个天气API,只是貌似仅仅能提供当天的.网上提到的中国气象接口的文章,大都用的时旧API,有的被封了,有的永远 ...

  6. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本2(十)

    下面,是版本1. Hadoop MapReduce编程 API入门系列之挖掘气象数据版本1(一) 这篇博文,包括了,实际生产开发非常重要的,单元测试和调试代码.这里不多赘述,直接送上代码. MRUni ...

  7. ScrollView嵌套ListView,GridView数据加载不全问题的解决

    我们大家都知道ListView,GridView加载数据项,如果数据项过多时,就会显示滚动条.ScrollView组件里面只能包含一个组件,当ScrollView里面嵌套listView,GridVi ...

  8. python多种格式数据加载、处理与存储

    多种格式数据加载.处理与存储 实际的场景中,我们会在不同的地方遇到各种不同的数据格式(比如大家熟悉的csv与txt,比如网页HTML格式,比如XML格式),我们来一起看看python如何和这些格式的数 ...

  9. flask+sqlite3+echarts3+ajax 异步数据加载

    结构: /www | |-- /static |....|-- jquery-3.1.1.js |....|-- echarts.js(echarts3是单文件!!) | |-- /templates ...

随机推荐

  1. BCZM : 1.5

    https://blog.csdn.net/zs634134578/article/details/18046317 有很多服务器存储数据,假设一个机器仅存储一个标号为ID的记录,假设机器总量在10亿 ...

  2. Android开发 navigation的跳转动画实现

    前言 此篇博客只简短的介绍navigation如何添加跳转页面的动画属性,如果你还为接触了解过navigation.建议你看我另一篇博客Android开发 navigation入门详解 创建动画xml ...

  3. IPsec分析/测试/

    一   局域网拓扑图 局域网环境搭建步骤: (升级最新版本 ,恢复出厂设置后) 1 两台网关wan口直连,分别接两台pc , 2 局域网网络测试,正常情况下PC1 和PC2 互通 ,测试通过在进行ip ...

  4. [转]spring入门(六)【springMVC中各数据源配置】

    在使用spring进行javaWeb开发的过程中,需要和数据库进行数据交换,为此要经常获取数据库连接,使用JDBC的方式获取数据库连接,使用完毕之后再释放连接,这种过程对系统资源的消耗无疑是很大的,这 ...

  5. php 三种文件下载的实现

    第一种:直接添加文件下载的绝对路径连接 //如:我有一个文件在demo.xx.cn/demo.zip <button> <a href = "http://demo.xx. ...

  6. 使用java Graphics 绘图工具生成顺丰快递电子面单

    最近公司需要开发一个公司内部使用的快递下单系统,给我的开发任务中有一个生成电子面单功能,为了下单时更方便,利用此功能使用快递公司给我们的打印机直接打印出电子面单,刚接到这个任务时我想这应该很简单,不就 ...

  7. (组合数学)不定方程的解+猜测——cf997B

    首先要求出三种等价情况 5×1+1×50=1×5+5×105×1+1×50=1×5+5×10 9×5=5×1+4×10 8×5+1×50=9×10   那么可以求出三种关于x5,x10的不可行条件 x ...

  8. Could not open file ..\obj\sys.o: No such file or directory解决办法

    一.你的keil的安装路径以及系统用户名是否带中文字符以及一些特殊字符.二.环境变量的值存在中文或者特殊字符了,解决方法如下: 1.在C盘建立一个新的文件夹,命名为英文,如qcl2.右击"此 ...

  9. JAVA 设计模式之 工厂模式详解

    一.简单工厂模式 简单工厂模式(Simple Factory Pattern)是指由一个工厂对象决定创建出哪一种产品类 的实例.属于创建型模式,但它不属于 GOF,23 种设计模式 (参考资料: ht ...

  10. Linux unzip解压多个文件

    假设当前目录下有多个zip文件 data.zip invoices.zip pictures.zip visit.zip, 直接 unzip *.zip 等价于 unzip data.zip invo ...