读取nutch爬取内容方法

读取nutch内容有如下两种方法：

1 通过Nutch api SegmentReader读取。

public Content readSegment(String segPath,String url){

              

            Text key= new Text(url);  

            Path path= new Path(segPath);  

            Content content = null;  

      

            ArrayList<Writable> parsedLst = null;  

            Map<String,List<Writable>> results=new HashMap<String, List<Writable>>();  

            SegmentReader reader= new SegmentReader(configuration,true,true,true,true,true,true);  

            try {  

                reader.get(path, key, new StringWriter(), results);  

                parsedLst=(ArrayList<Writable>) results.get("co");  

                Iterator<Writable> parseIter=parsedLst.iterator();  

                while(parseIter.hasNext()){  

                    content=(Content) parseIter.next();  

                }  

            } catch (Exception e) {  

                e.printStackTrace();  

            }  

      

            return content;

}

2 通过SequenceFile 读取

public static void main(String[] args) throws IOException {

            args=new String[]{"D:\\nutchv\\nutch12\\apache-nutch-1.2\\data\\csdn2\\segments\\20140904104348"};               Configuration conf = NutchConfiguration.create();       

            Options opts = new Options();       

            GenericOptionsParser parser = new GenericOptionsParser(conf, opts, args);       

            String[] remainingArgs = parser.getRemainingArgs();     

            FileSystem fs = FileSystem.get(conf);

            String segment = remainingArgs[0];

            Path file = new Path(segment, Content.DIR_NAME + "/part-00000/data");

            SequenceFile.Reader reader = new SequenceFile.Reader(fs, file, conf);

            Text key = new Text();

            Content content = new Content();

            // Loop through sequence files

            while (reader.next(key, content)) {

                try {

                    System.out.write(content.getContent(), 0,

                            content.getContent().length);

                } catch (Exception e) {

                }

            }

}

读取nutch爬取内容方法的更多相关文章

简单的爬虫爬的完整的<img>标签，修改正则即可修改爬取内容
简单的爬虫爬的完整的<img>标签,生成<img>标签结果文件与爬虫经历的网页. <?php/** 从给定的url获取html内容** */function _getUr ...
python爬虫之爬取糗事百科并将爬取内容保存至Excel中
本篇博文为使用python爬虫爬取糗事百科content并将爬取内容存入excel中保存·. 实验环境:Windows10 代码编辑工具:pycharm 使用selenium(自动化测试工具)+p ...
python爬虫爬取内容中，-xa0，-u3000的含义
python爬虫爬取内容中,-xa0,-u3000的含义 - CSDN博客 https://blog.csdn.net/aiwuzhi12/article/details/54866310
nutch爬取时Exception in thread “main” java.io.IOException: Job failed!
用cygwin运行nutch 1.2爬取提示IOException: $ bin/nutch crawl urls -dir crawl -depth 3 -topN 10 crawl started ...
Scrapy教程——搭建环境、创建项目、爬取内容、保存文件
1.创建项目在开始爬取之前,您必须创建一个新的Scrapy项目.进入您打算存储代码的目录中,运行新建命令. 例如,我需要在D:\00Coding\Python\scrapy目录下存放该项目,打开命令 ...
pymysql 使用twisted异步插入数据库：基于crawlspider爬取内容保存到本地mysql数据库
本文的前提是实现了整站内容的抓取,然后把抓取的内容保存到数据库. 可以参考另一篇已经实现整站抓取的文章:Scrapy 使用CrawlSpider整站抓取文章内容实现本文也是基于这篇文章代码基础上实现 ...
Java - XPath解析爬取内容
code { margin: 0; padding: 0; white-space: pre; border: none; background: transparent; } pre { backg ...
post请求方式的翻页爬取内容及思考
1 #coding=utf-8 import urllib2 import urllib import json output = open('huizho.json', 'w') for page ...
使用代码查看Nutch爬取的网站后生成的SequenceFile信息
必须针对data文件中的value类型来使用对应的类来查看(把这个data文件,放到了本地Windows的D盘根目录下). 代码: package cn.summerchill.nutch; impo ...

随机推荐

开启Java博客
已经转Java大半年了,Java知识都来自于工作,没有一个系统的学习,所以这一个多月我都在看Java的一些基本东西,准备系统性的学习下Java知识.这一个多月看的也挺多,从servlet,jsp,st ...
AJAX 状态值(readyState)与状态码(status)详解
总结:status体现的是服务器对请求的反馈,而readystate表明客户端与客户的交互状态过程. 1- AJAX状态值与状态码区别AJAX状态值是指,运行AJAX所经历过的几种状态,无论访问是否成 ...
微信Oauth2.0鉴权 40029 问题
前阵子出了这个问题,具体表现为,在获得用户授权时,有时会出现 40029 code 无效或超时问题.在网上查询后,大多数人说是因为微信请求了两次url,导致第二次失效,而第一次被终止了. 现在找到了 ...
Android-Lopper类的介绍（Handler背后的类）
转载来自:http://www.open-open.com/lib/view/open1325668588515.html Android中的Looper类,是用来封装消息循环和消息队列的一个类,用于 ...
JSBinding+Bridge.NET限制
限制: 框架代码不可以访问逻辑代码.这是最基本的. 框架里的函数 f 带数组参数时,逻辑代码调用 f 的话,数组只能做为输入,也就是说,如果在框架函数 f 里修改了数组的内容,那么逻辑代码是无法取得新 ...
google开发者可以在中国访问啦！！！！
google开发者已经可以在中国访问了,只是好多内容还是不能访问的,例如Chrome
ILGenerator.Emit动态 MSIL编程(一)之基础
首先在Framework中,Emit相关的类基本都存在于System.Reflection.Emit命名空间下.可见Emit是作为反射的一个元素存在的. Emit能够实现什么?为什么要学习Emit?首 ...
为什么C#中ref和out 关键字 ?
需求假设:现需要通过一个叫Swap的方法交换a,b两个变量的值.交换前a=1,b=2,断言:交换后a=2,b=1. 现编码如下: class Program { static void ...
Adaptive Decontamination of the Training Set: A Unified Formulation for Discriminative Visual Tracking
Martin Danelljan 判决类追踪模型是由训练样本学习得到,但是为了适应目标和背景的变化sample set在每一帧中都会更新. 令(xjk, yjk)表示第k帧k={1,2,...,t}中 ...
WIN SERVER 2008 R2 VPN
http://blog.csdn.net/popelovevivi/article/details/9408851 -- 还差最重要一步. 在“本地用户和组”-“用户”-右键一个你想VPN登录的用户名 ...

读取nutch爬取内容方法

读取nutch爬取内容方法的更多相关文章

随机推荐

热门专题