记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下:

(1)问题一: 如何Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载,和切分数据?

注意关于这个问题,在Pig中,会反应到2个场景中,
第一: 在Pig加载(load)数据时候 。
第二:
在Pig处理split,或则正则截取数据的时候。

先稍微说下,为啥使用十六进制的字段分隔符,而不是我们常见的空格,逗号,冒号,分号,#号,等,这些字符,虽然也可以使用,但是如果我们数据中有和这些符号冲突的数据,那么在解析时,就会发生一些出人意料的Bug,所以,为了保险起见,选用肉眼不可读的十六进制的数据,是一个不错的选择,当然这也是,针对场景来说的,看情况决定。

关于详细的ASCII和十六进制,二进制,八进制,十进制的文档介绍,请参考维基百科全书。

下面继续回到正题,本例中,我们的数据格式是这样存储的:

  1. 每行一条记录,UTF-8编码;
  2. 每条记录都包括字段名和字段内容;
  3. 字段之间用ascii码1分隔;
  4. 字段名与内容之间用ascii码2分隔;
每行一条记录,UTF-8编码;
每条记录都包括字段名和字段内容;
字段之间用ascii码1分隔;
字段名与内容之间用ascii码2分隔;

一个在eclipse中的小例子如下:

  1. public static void main(String[] args) {
  2. //注意\1和\2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的
  3. //显示方式,大家可以在维基百科中,详细了解下
  4. //数据示例
  5. String s="prod_cate_disp_id019";
  6. //split规则
  7. String ss[]=s.split("\2");
  8. for(String st:ss){
  9. System.out.println(st);
  10. }
  11. }
	public static void main(String[] args) {
//注意\1和\2,在我们的IDE中,NotePad++中,Linux的终端设备的界面中,都会呈现不同的
//显示方式,大家可以在维基百科中,详细了解下
//数据示例
String s="prod_cate_disp_id019";
//split规则
String ss[]=s.split("\2");
for(String st:ss){
System.out.println(st);
}
}


关于load函数,加载时支持的分隔符类型,大家可以参考官网的文档
下面看在Pig脚本的代码:

  1. --Hadoop技术交流群:415886155
  2. /*Pig支持的分隔符包括:
  3. 1,任意字符串,
  4. 2,任意转义字符
  5. 3,dec的字符\\u001 或者 \\u002
  6. 4,十六进行字符 \\x0A  \\x0B
  7. */
  8. --注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式
  9. a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ;
  10. /**
  11. 注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上
  12. 显示,这个符号,代表ASCII的2
  13. */
  14. a = foreach a generate   REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,
  15. REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,
  16. REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,
  17. REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,
  18. REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,
  19. REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,
  20. REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,
  21. REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,
  22. REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,
  23. REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,
  24. REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ;
  25. --获取字符串长度
  26. a = foreach a generate SIZE(cid) as len;
  27. --按长度分组
  28. b = group a by len;
  29. --统计各个长度下的数量
  30. c = foreach b generate group, COUNT($1);
  31. --输出打印
  32. dump c;
--Hadoop技术交流群:415886155
/*Pig支持的分隔符包括:
1,任意字符串,
2,任意转义字符
3,dec的字符\\u001 或者 \\u002
4,十六进行字符 \\x0A \\x0B
*/
--注意这个load时的分隔符,代表ASCII的1,作为Pig里面的dec直接解析方式
a = load '/tmp/dongliang/20150401/20150301/tmp_search_keywords_cate_stat/' using PigStorage('\\u001') ; /** 注意下面的分割符^B,这个符号是脱元字符,只会在终端设备上
显示,这个符号,代表ASCII的2
*/
a = foreach a generate REGEX_EXTRACT ($0, '(.*)^B(.*)', 2) as time ,
REGEX_EXTRACT ($1, '(.*)^B(.*)', 2) as kw ,
REGEX_EXTRACT ($2, '(.*)^B(.*)', 2) as ic ,
REGEX_EXTRACT ($3, '(.*)^B(.*)', 2) as cid,
REGEX_EXTRACT ($4, '(.*)^B(.*)', 2) as cname,
REGEX_EXTRACT ($5, '(.*)^B(.*)', 2) as pname,
REGEX_EXTRACT ($6, '(.*)^B(.*)', 2) as snt,
REGEX_EXTRACT ($7, '(.*)^B(.*)', 2) as cnt,
REGEX_EXTRACT ($8, '(.*)^B(.*)', 2) as fnt,
REGEX_EXTRACT ($9, '(.*)^B(.*)', 2) as ant,
REGEX_EXTRACT ($10, '(.*)^B(.*)', 2) as pnt ; --获取字符串长度
a = foreach a generate SIZE(cid) as len;
--按长度分组
b = group a by len;
--统计各个长度下的数量
c = foreach b generate group, COUNT($1);
--输出打印
dump c;


(2)问题二:如何在Apache Solr中,查询某个不分词的field的长度,有多少个记录?

Solr里面并没有直接提供这样类似JAVA里的lenth这样的函数,或者Pig里面的SIZE这样的函数,那么我们应该如何查询呢?

Solr虽然不直接支持这样的查询,但是我们可以通过正则查询,来变相的实现这个目的,用法如下:
(1)查询固定长度 cid:/.{6}/
只过滤长度为6的记录
(2)查询范围长度 cid:/.{6,9}/ 只过滤长度6到9的记录
(3)查询最少多少长度以上的cid:/.{6}.*/
长度最少为6的


(3)问题三:在使用Pig+MapReduce,向Solr中,批量添加索引时,发现,无任何错误异常,但是索引里却没任何数据?

这是一个比较诡异的问题,本来,散仙觉得应该是程序出问题了,但是后来发现,同样的代码向另外一个collection里添加数据,就很正常,查看solr的log,发现里面打印的一些信息如下:

  1. INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}
  2. INFO  - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.
  3. INFO  - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher
  4. INFO  - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush
INFO  - 2015-04-01 21:08:36.097; org.apache.solr.update.DirectUpdateHandler2; start commit{,optimize=false,openSearcher=true,waitSearcher=true,expungeDeletes=false,softCommit=false,prepareCommit=false}
INFO - 2015-04-01 21:08:36.098; org.apache.solr.update.DirectUpdateHandler2; No uncommitted changes. Skipping IW.commit.
INFO - 2015-04-01 21:08:36.101; org.apache.solr.core.SolrCore; SolrIndexSearcher has not changed - not re-opening: org.apache.solr.search.SolrIndexSearcher
INFO - 2015-04-01 21:08:36.102; org.apache.solr.update.DirectUpdateHandler2; end_commit_flush

解释下上面的信息的意思,大概就是说在数据索引完了,但是没有发现有commit的数据,所以跳过commit,这一点在程序跑的时候是非常奇怪的,因为数据源HDFS里最少有110万的数据,怎么会没有数据呢?
然后散仙通过谷歌搜索发现也有人发现类似的奇怪情况,无任何异常的情况下,重建索引成功,却在索引里没有看见任何数据,而且最为疑惑的是,这几个网上已经有的案例,竟然没有一个有解决方案。

没办法了,只好再次查看程序,这一次散仙,把中间处理好需要建索引的数据,给打印出来看一下,到底什么情况,结果打印出来的都是一行行空数据,原来在使用正则截取数据时,原来的分隔符失效了,所以导致截取不到数据,这下问题基本定位了,solr索引里没有数据,肯定是因为本来就没有数据提交,导致的那个奇怪的log发生,结果在散仙把这个bug修复之后,再次重建索引,发现这次果然成功了,在Solr中,也能正常查询到数据。如果你也发生了类似的情况,请首先确保你能正确的获取到数据,不论是从远程读取的,还是解析word,excel,或者txt里面的数据,都要首先确定,能够正确的把数据解析出来,然后,如果还是没建成功,可根据solr的log或者抛出的异常提示,进行修复


Apache Pig和Solr问题笔记(一)的更多相关文章

  1. 玩转大数据系列之Apache Pig如何与Apache Solr集成(二)

    散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷 ...

  2. 玩转大数据系列之Apache Pig高级技能之函数编程(六)

    原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...

  3. Solr学习笔记之3、Solr dataimport - 从SQLServer导入数据建立索引

    Solr学习笔记之3.Solr导入SQLServer数据建立索引 一.下载MSSQLServer的JDBC驱动 下载:Microsoft JDBC Driver 4.0 for SQL Server ...

  4. Apache Pig处理数据示例

    Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机 读取结构数据中的指定列 在hdfs上放置一个文件 [cl ...

  5. Solr学习笔记之5、Component(组件)与Handler(处理器)学习

    Solr学习笔记之5.Component(组件)与Handler(处理器)学习 一.搜索篇 拼写检查(spellCheck) 作用:用来检查用户输入的检索内容是否存在,如果不存在则给它提示出相近或相似 ...

  6. Solr学习笔记之4、Solr配置文件简介

    Solr学习笔记之4.Solr配置文件简介 摘自<Solr in Action>. 1. solr.xml – Defines one or more cores per Solr ser ...

  7. solr学习笔记-入门

    solr学习笔记 1.安装前准备 solr依赖java 8 运行环境,所以我们先安装java.如果没有java环境无法启动solr服务,并且会看到如下提示: [root@localhost solr- ...

  8. Solr学习笔记之2、集成IK中文分词器

    Solr学习笔记之2.集成IK中文分词器 一.下载IK中文分词器 IK中文分词器 此文IK版本:IK Analyer 2012-FF hotfix 1 完整分发包 二.在Solr中集成IK中文分词器 ...

  9. Solr学习笔记之1、环境搭建

    Solr学习笔记之1.环境搭建 一.下载相关安装包 1.JDK 2.Tomcat 3.Solr 此文所用软件包版本如下: 操作系统:Win7 64位 JDK:jdk-7u25-windows-i586 ...

随机推荐

  1. IP总结

    网络层向上只提供无连接的.尽最大努力支付的数据报服务 IP地址,32位,分为两部分,网络和主机标示 IP地址分类: A类:0开头,1-8位为网络标示 B类:10开头,1-16位为网络标示 C类:110 ...

  2. 关于DEBUG的一点体会

    目录 1. 看待问题 2. 为什么要debug 3. 我理解的问题定位能力 4. debug能力模型的4个层级 5. 小结与扩展 1. 看待问题 遇到更高级的bug,解决更重要的问题,是开发同学的迭代 ...

  3. mysql 实现批量导入,并解决中文乱码问题

    public static String url = "jdbc:mysql://ip/database?characterEncoding=UTF-8"; //在database ...

  4. .NET Core 3.0之深入源码理解Startup的注册及运行

    原文:.NET Core 3.0之深入源码理解Startup的注册及运行   写在前面 开发.NET Core应用,直接映入眼帘的就是Startup类和Program类,它们是.NET Core应用程 ...

  5. PostgreSQL 主键自动增长

    建立主键并设置自动增加的办法好好几种,这里记录我测试过的: drop table pro_process; CREATE TABLE "public"."pro_proc ...

  6. 解决Keep-Alive 和 Close 不能使用此属性设置

    http://www.hejingzong.cn/blog/viewblog_86.aspx Keep-Alive 和 Close 不能使用此属性设置 public static void SetHe ...

  7. 深度探索C++对象模型之第一章:关于对象之C++对象模型

    一.C和C++对比: C语言的Point3d: 数据成员定义在结构体之内,存在一组各个以功能为导向的函数中,共同处理外部的数据. typedef struct point3d { float x; f ...

  8. thinkphp rabc权限总结

    今天晚上把ThinkPHP的权限分配弄明白了,心里的包袱立刻放下了,感觉那个爽啊!稍微记录一下. 背景:CMS系统开发(17do). 项目分组:Admin(后台管理).Home(前台显示). Admi ...

  9. Centos 6.5 python版本升级到2.7.8

    Centos6.5默认的 python版本是2.6 为了使用aliyuncli工具,直接用pip安装aliyuncli提示错误. 所以决定升级下python版本,但是yum依赖于python2.6,升 ...

  10. python 基本常用数据类型

    #字典类型 result={1:2222,2:2221111}; result.items();#获取字典中所有元素 result.keys();#获取字典的key result.values();# ...