读取Webpage表中的内容

nutch将从网页中抓取到的信息放入hbase数据库中，默认情况下表名为$crawlId_webpage，但表中的内容以16进制进行表示，直接scan或者通过Java API进行读取均只能读取到16进制信息。

因此nutch提供了readdb选项进行数据获取，将表中的内容读取到一个文本中。

具体用法为：

$ bin/nutch readdb

Usage: WebTableReader (-stats | -url [url] | -dump <out_dir> [-regex regex])

                      [-crawlId <id>] [-content] [-headers] [-links] [-text]

    -crawlId <id>  - the id to prefix the schemas to operate on,

                     (default: storage.crawl.id)

    -stats [-sort] - print overall statistics to System.out

    [-sort]        - list status sorted by host

    -url <url>     - print information on <url> to System.out

    -dump <out_dir> [-regex regex] - dump the webtable to a text file in

                     <out_dir>

    -content       - dump also raw content

    -headers       - dump protocol headers

    -links         - dump links

    -text          - dump extracted text

    [-regex]       - filter on the URL of the webtable entry

示例：

（1）seed.txt的内容为：

http://www.163.com

（2）执行以下命令进行inject操作

bin/nutch inject seed.txt -crawlId test001

（3）scan表中内容，发现无意义

hbase(main):002:0> scan 'test001_webpage'

ROW                                         COLUMN+CELL

 com.163.money:http/                        column=f:fi, timestamp=1423550107073, value=\x00'\x8D\x00

 com.163.money:http/                        column=f:ts, timestamp=1423550107073, value=\x00\x00\x01Kr2\xC7\xD6

 com.163.money:http/                        column=mk:_injmrk_, timestamp=1423550107073, value=y

 com.163.money:http/                        column=mk:dist, timestamp=1423550107073, value=0

 com.163.money:http/                        column=mtdt:_csh_, timestamp=1423550107073, value=?\x80\x00\x00

 com.163.money:http/                        column=s:s, timestamp=1423550107073, value=?\x80\x00\x00

1 row(s) in 0.4090 seconds

（4）将表中内容读取到/mnt/jediael/2

bin/nutch readdb  -dump /mnt/jediael/2  -crawlId test001 -content

（5）查看/mnt/jediael/2中的内容

$ ll

total 4

-rwxrwxrwx. 1 jediael jediael 344 Feb 10 14:41 part-r-00000

-rwxrwxrwx. 1 jediael jediael   0 Feb 10 14:41 _SUCCESS

$ cat part-r-00000

http://money.163.com/   key:    com.163.money:http/

baseUrl:        null

status: 0 (null)

fetchTime:      1423550105558

prevFetchTime:  0

fetchInterval:  2592000

retriesSinceFetch:      0

modifiedTime:   0

prevModifiedTime:       0

protocolStatus: (null)

parseStatus:    (null)

title:  null

score:  1.0

marker _injmrk_ :       y

marker dist :   0

reprUrl:        null

metadata _csh_ :        ?锟

读取Webpage表中的内容的更多相关文章

读取Webpage表中的内容分类： H3_NUTCH 2015-02-10 14:59 418人阅读评论(0) 收藏
nutch将从网页中抓取到的信息放入hbase数据库中,默认情况下表名为$crawlId_webpage,但表中的内容以16进制进行表示,直接scan或者通过Java API进行读取均只能读取到16进 ...
一百一十五、脱离SAP本体，通过ActiveX读取SAP表中数据
一.Sap自带有客户端,但是非常之臃肿卡顿,可以利用ActiveX的方式,脱离Sap本体,来读取Sap表中的内容进行插入等操作,非常之方便.代码如下: 二.界面如下,输入好相关内容,点击登录,提示登录 ...
Python xlrd模块读取Excel表中的数据
1.xlrd库的安装直接使用pip工具进行安装(当然也可以使用pycharmIDE进行安装,这里就不详述了) pip install xlrd 2.xlrd模块的一些常用命令 ①打开excel文件并 ...
读取数据表中第m条到第n条的数据，SQL语句怎么写？
原文:读取数据表中第m条到第n条的数据,SQL语句怎么写? 对于MySQL或者Oracle来说,如果实现从Table 表中取出第 m 条到第 n 条的记录操作,我们需要TOP函数(不是所有的数据库都支 ...
Flex读取txt文件中的内容（三）
Flex读取txt文件中的内容 1.设计源码 LoadTxt.mxml: <?xml version="1.0" encoding="utf-8"?> ...
Flex读取txt文件中的内容（二）
Flex读取txt文件中的内容自动生成的文件 LoadTxt-app.xml: <?xml version="1.0" encoding="utf-8" ...
Flex读取txt文件中的内容（一）
Flex读取txt文件中的内容 phone.txt: 13000003847 13000003848 13000003849 13000003850 13000003851 13000003852 1 ...
Flex读取txt文件中的内容报错
Flex读取txt文件中的内容 1.具体错误如下 2.错误原因读取文件不存在 var file:File = new File(File.applicationDirectory.nativePat ...
Hibernate查询之SQL查询，查询结果用new新对象的方式接受，hql查询，通过SQL查询的结果返回到一个实体中，查询不同表中内容，并将查到的不同表中的内容放到List中
package com.ucap.netcheck.dao.impl; import java.util.ArrayList;import java.util.List; import org. ...

随机推荐

php之类，对象（四）加载类及练习题
一.加载类:1.命名类文件的时候每个单词首字母大写,后面缀上.class.php eg: Info.class.php 在写编码时定义类名首字母大写,定义变量名小写 eg:class Ren { pu ...
本地windows下PHP连接远程oracle遇到的诸多问题
任务目的:本地windows下PHP连接远程服务器下的oracle. 必须必须确定服务器的数据库版本,如果本地的驱动和对方服务器版本不一致,会导致许多报错. 已知的oracle版本分为 32位的 ...
sql基础复习
--.while循环 declare @sum int declare @i int ) begin set @sum =@sum+@i ) print @i end print @sum --.go ...
Activity生命周期的学习以及Logcat的使用
http://android.blog.51cto.com/268543/322518/ Activities是由Activity stack管理的.当一个新的Activity被启动,它就会处于st ...
SQL使用单引号
SQL> select 'xxxx'oooo' from dual; ERROR: ORA-01756: quoted string not properly terminated SQL> ...
IDEA 快捷键整理
1. IDEA内存优化 \IntelliJ IDEA 9\bin\idea.exe.vmoptions ----------------------------------------- -Xms6 ...
bzoj1756 Vijos1083 小白逛公园
Description 小新经常陪小白去公园玩,也就是所谓的遛狗啦-在小新家附近有一条"公园路",路的一边从南到北依次排着n个公园,小白早就看花了眼,自己也不清楚该去哪些公园玩了. ...
asp.net 中的错误跳转 customerrors 对html文件不起作用
在配置web.config时发现customerrors对aspx文件是起作用的,我想通过customerrors来判断是否有html文件时,却不起作用? 这是为什么,如果要起作用.net里该如何操作 ...
Ugly Number II 解答
Question Write a program to find the n-th ugly number. Ugly numbers are positive numbers whose prime ...
centerOS安装rkhunter
rkhunter是专业检测系统是否感染rootkit的一个工具: rkhunter-1.4.2.tar.gz 解压后直接安装: #./installer.sh --layout defualt --i ...

读取Webpage表中的内容

读取Webpage表中的内容的更多相关文章

随机推荐

热门专题