Hive中使用Python实现Transform时遇到Broken pipe错误排查

Hive中有一表，列分隔符为冒号(:)，有一列utime是Timestamp格式，需要转成Weekday存到新表。

利用Python写一个Pipeline的Transform，weekday.py的代码也很简单：

import sys

import datetime

for line in sys.stdin:

line=line.strip()

uid,mid,rating,utime=line.split(':')

weekday=datetime.datetime.fromtimestamp(float(utime)).isoweekday()

print '\t'.join([uid,mid,rating,str(weekday)])

HQL的查询也很简单：

select

transform(uid,mid,rating,utime)

using 'python weekday.py' as (uid,mid,rating,weekday)

from rating

Stage-1结束后就报错！

排查过程：

1. Hive给出的日志，没有什么意义。Hive日志：

INFO exec.Task: 2015-07-07 16:34:57,938 Stage-1 map = 0%, reduce = 0%

INFO exec.Task: 2015-07-07 16:35:30,262 Stage-1 map = 100%, reduce = 0%

ERROR exec.Task: Ended Job = job_1431587697935_0210 with errors

ERROR operation.Operation: Error running hive query:

org.apache.hive.service.cli.HiveSQLException: Error while processing statement: FAILED: Execution Error, return code 20001 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask. An error occurred while reading or writing to your custom script. It may have crashed with an error.

at org.apache.hive.service.cli.operation.Operation.toSQLException(Operation.java:315)

at org.apache.hive.service.cli.operation.SQLOperation.runQuery(SQLOperation.java:156)

at org.apache.hive.service.cli.operation.SQLOperation.access$100(SQLOperation.java:71)

at org.apache.hive.service.cli.operation.SQLOperation$1$1.run(SQLOperation.java:206)

at java.security.AccessController.doPrivileged(Native Method)

at javax.security.auth.Subject.doAs(Subject.java:415)

at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1628)

at org.apache.hive.service.cli.operation.SQLOperation$1.run(SQLOperation.java:218)

at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:471)

at java.util.concurrent.FutureTask.run(FutureTask.java:262)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)

at java.lang.Thread.run(Thread.java:745)

2. 不死心呀！开启Hive日志的Debug，再看看日志。

因为我一直使用的是Beeline连接Hive，得到的日志跟1.一样，没有收获。后来我想想，要不用Hive CLI看一下，会不会有收获。终于得到点有意义的日志了：

Task with the most failures(4):
-----
Task ID:
task_1431587697935_0210_m_000000
-----
Diagnostic Messages for this Task:
Error: java.lang.RuntimeException: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {"uid":11,"mid":2791,"rating":4,"utime":"978903186"}
at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:172)
at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:450)
at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1628)
at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)
Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: Hive Runtime Error while processing row {"uid":11,"mid":2791,"rating":4,"utime":"978903186"}
at org.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:518)
at org.apache.hadoop.hive.ql.exec.mr.ExecMapper.map(ExecMapper.java:163)
... 8 more
Caused by: org.apache.hadoop.hive.ql.metadata.HiveException: [Error 20001]: An error occurred while reading or writing to your custom script. It may have crashed with an error.
at org.apache.hadoop.hive.ql.exec.ScriptOperator.process(ScriptOperator.java:456)
at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:837)
at org.apache.hadoop.hive.ql.exec.SelectOperator.process(SelectOperator.java:88)
at org.apache.hadoop.hive.ql.exec.Operator.forward(Operator.java:837)
at org.apache.hadoop.hive.ql.exec.TableScanOperator.process(TableScanOperator.java:97)
at org.apache.hadoop.hive.ql.exec.MapOperator$MapOpCtx.forward(MapOperator.java:162)
at org.apache.hadoop.hive.ql.exec.MapOperator.process(MapOperator.java:508)

Caused by: java.io.IOException: Broken pipe
at java.io.FileOutputStream.writeBytes(Native Method)
at java.io.FileOutputStream.write(FileOutputStream.java:345)
at java.io.BufferedOutputStream.write(BufferedOutputStream.java:122)
at java.io.BufferedOutputStream.flushBuffer(BufferedOutputStream.java:82)
at java.io.BufferedOutputStream.write(BufferedOutputStream.java:126)
at java.io.DataOutputStream.write(DataOutputStream.java:107)
at org.apache.hadoop.hive.ql.exec.TextRecordWriter.write(TextRecordWriter.java:53)
at org.apache.hadoop.hive.ql.exec.ScriptOperator.process(ScriptOperator.java:425)

3. 根据上步提示的那行可疑的数据，我怀疑有Bad Data，处理时出错。我单独将报错的行放到另一个表中去处理，又完全没有问题。好吧，继续。

4. 断续之前我需要搞清楚： java.io.IOException: Broken pipe是什么？

写入端出现的时候，另一端却休息或退出了，因此造成没有及时取走管道中的数据，从而系统异常退出。在这里就是：当Streaming正在获取input数据，好给weekday.py处理的过程中，weekday.py异常终止了。等Streaming准备好数据回来后，却找不到weekday.py来接收数据，于是Broken pipe了。

5. 搞明白Broken pipe并给前面的错误信息，断定问题应该出在weekday.py上。接下来，既然是MapReduce出错，那就需要去看Yarn的Stderr.

通过ResouceManager查看对应Application的Logs中的stderr，发现：

Traceback (most recent call last):

File "weekday_mapper.py", line 5, in <module>

uid,mid,rating,utime=line.split(':')

ValueError: need more than 1 value to unpack

6. 从Python的错误来看，推测有数据行的分隔符(:)有异常，导致split之后不能返回4个值(uid,mid,rating,utime)。用各种方法检查数据格式，一切正常。只好，处理脚本加上异常处理。

加上异常处理之后不报错了，但是Select输出0行数据。

import sys

import datetime

for line in sys.stdin:

try:

line=line.strip()

uid,mid,rating,utime=line.split(':')

weekday=datetime.datetime.fromtimestamp(float(utime)).isoweekday()

print '\t'.join([uid,mid,rating,str(weekday)])

except Exception, ex:

pass

7. 问题锁定到：脚本处理数据有问题。尝试直接从HDFS上直接抓取表的数据文件，再用脚本处理，是正常的。

hdfs dfs -cat /user/hive/warehouse/test.db/t/000000_0|python /tmp/weekday_mapper.py

最后，怀疑transform的输出格式是不是与定义表的格式不一样，查阅官方说明：

By default, columns will be transformed to STRING and delimited by TAB before feeding to the user script。

于是，将脚本中的 uid,mid,rating,utime=line.split(':')改成 uid,mid,rating,utime=line.split('\t')。再试一次，成功！

总结

1. 基础知识很重要，要在自己内心成体系，才能够用信手拈来。路漫漫兮！

2. 有时凭借经验的“猜”，会很有帮助，有时却会“聪明反被聪明误"。所以要重视日志，并以之为操作重现的依据。

Hive中使用Python实现Transform时遇到Broken pipe错误排查的更多相关文章

tcp连接时，BROKEN PIPE错误的原因以及解决方法
问题: 写了一个server和一个client,UNIX套接字的,server不断接收消息并打印出来,client是一个交互程序,输入一个消息回车发送,接着又可以输入消息.出问题了:当server监听 ...
在hive中查询导入数据表时FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least one static partition column. To turn this off set hive.exec.dynamic.partition.mode=nonstrict
当我们出现这种情况时 FAILED: SemanticException [Error 10096]: Dynamic partition strict mode requires at least ...
sqoop 从oracle导数据到hive中，date型数据时分秒截断问题
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案 1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了 ...
hive中一般取top n时，row_number(),rank,dense_ran()常用三个函数
一. 分区函数Partition By与row_number().rank().dense_rank()的用法(获取分组(分区)中前几条记录) 一.数据准备 --1.创建学生成绩表 id int, ...
python运行selenium时出现的一个错误总结
1.SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame 场景:运用pan ...
hive 中窗口函数row_number,rank,dense_ran,ntile分析函数的用法
hive中一般取top n时,row_number(),rank,dense_ran()这三个函数就派上用场了, 先简单说下这三函数都是排名的,不过呢还有点细微的区别. 通过代码运行结果一看就明白了. ...
Hive中导入Oracle数据错误：Listener refused the connection with the following error: ORA-12505
问题: 今天往Hive中导入Oracle数据的时候碰到了如下错误:Listener refused the connection with the following error: ORA-12505 ...
Python的问题解决: IOError: [Errno 32] Broken pipe
被该问题困扰的人还是挺多的,所以又对这个问题进行了一些更深入的分析,希望可以解决读者的问题新版本:Python 的 Broken Pipe 错误问题分析遇到一个很奇怪的问题, web.py代码里面报 ...
用C3中的animation和transform写的一个模仿加载的时动画效果
用用C3中的animation和transform写的一个模仿加载的时动画效果! 不多说直接上代码; html标签部分 <div class="wrap"> <h ...

随机推荐

【WIN7】windows\system32 下的几乎所有文件的简单说明【2】
1: System32的详解 C:\WINDOWS\system32... 2: 3: 这个 system32 文件夹中包含了大量的用于 Windows 的文件. 这里主要用于存储 DLL 文件, ...
如何实现一个简单的RPC
在如何给老婆解释什么是RPC中,我们讨论了RPC的实现思路. 那么这一次,就让我们通过代码来实现一个简单的RPC吧! RPC的实现原理正如上一讲所说,RPC主要是为了解决的两个问题: 解决分布式系统 ...
AtCoder Regular Contest 093
AtCoder Regular Contest 093 C - Traveling Plan 题意: 给定n个点,求出删去i号点时,按顺序从起点到一号点走到n号点最后回到起点所走的路程是多少. \(n ...
VMware Workstation 12 增加磁盘容量 Windows Server 2012 系统
1.安装虚拟机后,检查C盘容量大小,发现C盘现在的空间是59.9GB,如下图: 2.使用window+R键,出现运行窗口,输入‘cmd’——>‘cd C:\Program Files (x86) ...
Android -- 创建XML文件对象及其序列化， pull解析XML文件
1. 创建XML文件对象及其序列化示例代码:(模拟以xml格式备份短信到SD卡) SmsInfo.java, bean对象 /** * 短信的业务bean * @author Administrat ...
scala学习手记29 - 偏应用函数
调用函数可以说成是将函数应用于实参.如果传入所有的预期的参数,就完全应用了这个函数.如果只传入几个参数,就会得到一个偏应用函数. 偏应用函数是一个特殊的概念,在scala中它是使用val定义的,但是在 ...
Eclipse下建立简单JNI程序实现返回double类型
在Eclipse下生成时要注意,由于通常是在package里面添加类,而非像单独建立工程时独立添加,所以,在编译的时候,都需要进入包所在的文件夹, javac 包名.类名这样的形式来编译,同理,ja ...
Java Redis Pipeline 使用示例
1. 参考的优秀文章 Request/Response protocols and RTT 2. 来源原来,系统中一个树结构的数据来源是Redis,由于数据增多.业务复杂,查询速度并不快.究其原因, ...
CSLA验证规则总结
CSLA业务规则验证规则所在空间: Csla.Rules 基类 BusinessBase 的属性 BusinessRules 中记录了业务类的验证规则验证规格的写法 private class ...
sublime 常见问题
问题一: There Are No Packages Available For Installation 原因:官方提供的Package Control不能用.将官方的那个Package Contr ...

Hive中使用Python实现Transform时遇到Broken pipe错误排查

Hive中使用Python实现Transform时遇到Broken pipe错误排查的更多相关文章

随机推荐

热门专题