使用代码查看Nutch爬取的网站后生成的SequenceFile信息

必须针对data文件中的value类型来使用对应的类来查看(把这个data文件,放到了本地Windows的D盘根目录下).

代码:

 package cn.summerchill.nutch;

 import java.io.IOException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.SequenceFile;

 import org.apache.hadoop.io.Text;

 import org.apache.nutch.crawl.CrawlDatum;

 import org.apache.nutch.crawl.Inlinks;

 import org.apache.nutch.parse.ParseData;

 import org.apache.nutch.parse.ParseText;

 import org.apache.nutch.protocol.Content;

 /**

  * 读取nutch生成的sequencefile文件

  * @author Administrator

  *

  */

 public class SeFileReader {

     public static void main(String[] args) throws IOException {

         Configuration conf=new Configuration();

         Path dataPath=new Path("D:\\data");

         FileSystem fs=dataPath.getFileSystem(conf);

         SequenceFile.Reader reader=new SequenceFile.Reader(fs,dataPath,conf);

         Text key=new Text();

         CrawlDatum value=new CrawlDatum();

         //Content value = new Content();

         //Inlinks value = new Inlinks();

         //ParseText value = new ParseText();

         //ParseData value = new ParseData();

         while(reader.next(key,value)){

             System.out.println("key->\n"+key);

             System.err.println("value->\n"+value);

             try {

                 Thread.sleep(1000);

             } catch (InterruptedException e) {

                 e.printStackTrace();

             }

             System.out.println("=======================================");

         }

         reader.close();

     }

 }

运行结果:

key->

http://bbs.superwu.cn/

value->

Version: 7

Status: 2 (db_fetched)

Fetch time: Tue Nov 08 08:31:30 CST 2016

Modified time: Thu Jan 01 08:00:00 CST 1970

Retries since fetch: 0

Retry interval: 2592000 seconds (30 days)

Score: 1.6153846

Signature: 22defcd7cb4e7b1dc8a16a0a2f339ecb

Metadata:

     Content-Type=application/xhtml+xml

    _pst_=success(1), lastModified=0

    _rs_=610

=======================================

value->

Version: 7

Status: 1 (db_unfetched)

Fetch time: Sun Oct 09 08:31:35 CST 2016

Modified time: Thu Jan 01 08:00:00 CST 1970

Retries since fetch: 0

Retry interval: 2592000 seconds (30 days)

Score: 0.23076925

Signature: null

Metadata: 

key->

http://bbs.superwu.cn/archiver/

=======================================

key->

http://bbs.superwu.cn/forum.php

value->

Version: 7

Status: 1 (db_unfetched)

Fetch time: Sun Oct 09 08:31:35 CST 2016

Modified time: Thu Jan 01 08:00:00 CST 1970

Retries since fetch: 0

Retry interval: 2592000 seconds (30 days)

Score: 0.15384616

Signature: null

Metadata: 

=======================================

使用代码查看Nutch爬取的网站后生成的SequenceFile信息的更多相关文章

用Python爬取斗鱼网站的一个小案例
思路解析: 1.我们需要明确爬取数据的目的:为了按热度查看主播的在线观看人数 2.浏览网页源代码,查看我们需要的数据的定位标签 3.在代码中发送一个http请求,获取到网页返回的html(需要注意的是 ...
python之简单爬取一个网站信息
requests库是一个简介且简单的处理HTTP请求的第三方库 get()是获取网页最常用的方式,其基本使用方式如下使用requests库获取HTML页面并将其转换成字符串后,需要进一步解析HTML ...
webmagic爬取渲染网站
最近突然得知之后的工作有很多数据采集的任务,有朋友推荐webmagic这个项目,就上手玩了下.发现这个爬虫项目还是挺好用,爬取静态网站几乎不用自己写什么代码(当然是小型爬虫了~~|). 好了,废话少说 ...
python爬虫--爬取某网站电影信息并写入mysql数据库
书接上文,前文最后提到将爬取的电影信息写入数据库,以方便查看,今天就具体实现. 首先还是上代码: # -*- coding:utf-8 -*- import requests import re im ...
python爬虫--爬取某网站电影下载地址
前言:因为自己还是python世界的一名小学生,还有很多路要走,所以本文以目的为向导,达到目的即可,对于那些我自己都没弄懂的原理,不做去做过多解释,以免误人子弟,大家可以网上搜索. 友情提示:本代码用 ...
python爬虫-基础入门-爬取整个网站《2》
python爬虫-基础入门-爬取整个网站<2> 描述: 开场白已在<python爬虫-基础入门-爬取整个网站<1>>中描述过了,这里不在描述,只附上 python3 ...
python爬虫-基础入门-爬取整个网站《1》
python爬虫-基础入门-爬取整个网站<1> 描述: 使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数 ...
Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识
网站站点的背景调研 1. 检查 robots.txt 网站都会定义robots.txt 文件,这个文件就是给网络爬虫来了解爬取该网站时存在哪些限制.当然了,这个限制仅仅只是一个建议,你可以遵守,也 ...
利用python的requests和BeautifulSoup库爬取小说网站内容
1. 什么是Requests? Requests是用Python语言编写的,基于urllib3来改写的,采用Apache2 Licensed 来源协议的HTTP库. 它比urllib更加方便,可以节约 ...

随机推荐

IntelliJ IDEA 2017版 spring-boot 2.03后 Pageable用法;Pageable用法，PageRequest过时，新用法；Pageable过时问题；
1.旧版本Pageable用法: 但是会显示,这个版本已经过时,这时可以查看源码. 一般,一个方法过时,就会在其附近形成一个新的同名的但是其他用法的方法.按照这个理念,来找这个源码.很幸运,蒙对了,我 ...
微信小程序的新的
app.request.get('http://ele.kassing.cn/v1/pois',this.data.city).then(res=>{ console.log(res) this ...
ubuntu设置IP地址、网关的方法
打开terminal(用Ctrl+Alt+T打开) 1. 输入ifconfig 打印如下: enp1s0 Link encap:Ethernet HWaddr 6c:4b:90:0b:53: ...
微信小程序踩坑集合
1:官方工具:https://mp.weixin.qq.com/debug/w ... tml?t=1476434678461 2:简易教程:https://mp.weixin.qq.com/debu ...
.net 导出Excel
CreateExcel(ExcelDs, ", f); void CreateExcel(DataSet ds, string typeid, string FileName) { Http ...
18) maven 项目结构：继承
Project Inheritance [ɪn'herɪt(ə)ns] https://maven.apache.org/guides/introduction/introduction-to-the ...
x86_64汇编调试程序初步
寄存器说明: rdi 存第1个参数(值或地址) rsi 存第2个参数 rdx 存第3个参数 rcx 存第4个参数 r8 存第5个参数 r9 存第6个参数 rax 第1个返回值 rdx 第2个返回值 r ...
C++获取当前进程绝对路径
获取进程的绝对路径(代码同时操作字符串获取了文件目录): 第一种代码: wstring GetProgramDir() { TCHAR exeFullPath[MAX_PATH]; // Full p ...
Video Processing and Communications：（视频处理和通信）
https://max.book118.com/html/2017/1010/136711526.shtm Application of (GAN) of AI faceswap in Music V ...
关于python logging的 NOTSET 级别
说重点: NOTSET 意指不设置所以按照父logger级别来过滤日志注意不是最低级别的意思由于logging中root日志对象的默认级别是WARNING, 所以当你使用logging.get ...

使用代码查看Nutch爬取的网站后生成的SequenceFile信息

使用代码查看Nutch爬取的网站后生成的SequenceFile信息的更多相关文章

随机推荐

热门专题