ForkJoin统计文件夹中包含关键词的数量

2018-06-09总结:

ForkJoin确实可以很快速的去解析文件并统计关键词的数量,但是如果文件过大就会出现内存溢出,是否可以通过虚拟内存方式解决内存溢出的问题呢?

package com.oxygen.forkjoin.model;

import java.util.List;
/**
 * 文档
 * @author renguanyu
 *
 */
public class Document {

    private List<String> lines;

    public Document(List<String> lines) {
        super();
        this.lines = lines;
    }

    public List<String> getLines() {
        return lines;
    }

    public void setLines(List<String> lines) {
        this.lines = lines;
    }

}

package com.oxygen.forkjoin.model;

import java.util.List;
/**
 * 文件夹
 * @author renguanyu
 *
 */
public class Folder {

    private List<Folder> subFolders;
    private List<Document> documents;

    public Folder(List<Folder> subFolders, List<Document> documents) {
        this.subFolders = subFolders;
        this.documents = documents;
    }

    public List<Folder> getSubFolders() {
        return subFolders;
    }

    public void setSubFolders(List<Folder> subFolders) {
        this.subFolders = subFolders;
    }

    public List<Document> getDocuments() {
        return documents;
    }

    public void setDocuments(List<Document> documents) {
        this.documents = documents;
    }

}

package com.oxygen.forkjoin.service;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import com.oxygen.forkjoin.model.Document;
/**
 * 文档服务
 * @author renguanyu
 *
 */
public class DocumentService {

    /**
     * 读取文件中所以数据
     * @param file 文件
     * @return 文档
     */
    public static Document fromFile(File file) {
        List<String> lines = new ArrayList<>();
        try(BufferedReader reader = new BufferedReader(new FileReader(file))) {
            String line = reader.readLine();
            while (line != null) {
                lines.add(line);
                line = reader.readLine();
            }
        } catch (FileNotFoundException e) {
            e.printStackTrace();
        } catch (IOException e) {
            e.printStackTrace();
        }
        return new Document(lines);
    }

}

package com.oxygen.forkjoin.service;

import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ForkJoinPool;

import com.oxygen.forkjoin.model.Document;
import com.oxygen.forkjoin.model.Folder;
import com.oxygen.forkjoin.task.FolderSearchTask;
/**
 * 文件夹服务
 * @author renguanyu
 *
 */
public class FolderService{

    /**
     * 递归查询文件夹中所有的数据
     * 1.在内存中建立文件夹的结构
     * 2.把数据都加载到这个结构中,方便下一步计算
     * @param dir 文件夹
     * @return 文件夹
     */
    public static Folder fromDirectory(File dir) {
        List<Document> documents = new ArrayList<>();
        List<Folder> subFolders = new ArrayList<>();
        for (File entry : dir.listFiles()) {
            if (entry.isDirectory()) {
                subFolders.add(FolderService.fromDirectory(entry));
            } else {
                documents.add(DocumentService.fromFile(entry));
            }
        }
        return new Folder(subFolders, documents);
    }

    /**
     * 获取关键词总数
     * @param targetFolder 目标文件夹
     * @param keyword 关键词
     * @throws IOException
     */
    public static long getKeywordTotal(String targetFolder, String keyword) {
        ForkJoinPool forkJoinPool = new ForkJoinPool();
        //把文件夹中的数据加载到内存中,我这个文件夹中就一个日志文件
        File dir = new File(targetFolder);
        Folder folder = FolderService.fromDirectory(dir);
        //创建一个搜索任务
        FolderSearchTask task = new FolderSearchTask(folder, keyword);
        //开始执行fork/join任务
        long counts = forkJoinPool.invoke(task);
        return counts;
    }

}

package com.oxygen.forkjoin.task;
import java.util.List;
import java.util.concurrent.RecursiveTask;

import com.oxygen.forkjoin.model.Document;
/**
 * 文档搜索任务
 * @author renguanyu
 *
 */
public class DocumentSearchTask extends RecursiveTask<Long> {

    private static final long serialVersionUID = 1L;

    private Document document;
    private String searchedWord;

    public DocumentSearchTask(Document document, String searchedWord) {
        super();
        this.document = document;
        this.searchedWord = searchedWord;
    }

    @Override
    protected Long compute() {
        long count = 0;
        List<String> lines = document.getLines();
        for (String line : lines) {
            String[] words = line.trim().split("(\\s|\\p{Punct})+");
            for (String word : words) {
                if (searchedWord.equals(word)) {
                    count = count + 1;
                }
            }
        }
        return count;
    }

}

package com.oxygen.forkjoin.task;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.RecursiveTask;

import com.oxygen.forkjoin.model.Document;
import com.oxygen.forkjoin.model.Folder;
/**
 * 文件夹搜索任务
 * @author renguanyu
 *
 */
public class FolderSearchTask extends RecursiveTask<Long> {

    private static final long serialVersionUID = 1L;

    private Folder folder;
    private String searchedWord;

    public FolderSearchTask(Folder folder, String searchedWord) {
        super();
        this.folder = folder;
        this.searchedWord = searchedWord;
    }
    //计算方法
    @Override
    protected Long compute() {
        long count = 0L;
        List<RecursiveTask<Long>> forks = new ArrayList<>();
        //获取文件夹下的子文件夹
        for (Folder subFolder : folder.getSubFolders()) {
            //递归文件夹搜索任务
            FolderSearchTask task = new FolderSearchTask(subFolder, searchedWord);
            //把任务添加到分叉列表,用于合并任务
            forks.add(task);
            //放到工作队列中
            task.fork();
        }
        //获取文件夹下的文档
        for (Document document : folder.getDocuments()) {

            DocumentSearchTask task = new DocumentSearchTask(document, searchedWord);
            //把任务添加到分叉列表,用于合并任务
            forks.add(task);
            //放到工作队列中
            task.fork();
        }
        //合并工作队列中各个线程计算结果的值
        for (RecursiveTask<Long> task : forks) {
            count = count + task.join();
        }
        return count;
    }
}

package com.oxygen.forkjoin.test;

import java.io.IOException;
import com.oxygen.forkjoin.service.FolderService;
/**
 * 测试程序
 * @author renguanyu
 *
 */
public class MainTest {

    public static void main(String[] args) throws IOException {

        long startTime = System.currentTimeMillis();

        long counts = FolderService.getKeywordTotal("C:\\test\\logs\\", "null");

        long stopTime = System.currentTimeMillis();

        long completeTime = stopTime - startTime;

        System.out.println(counts + " , fork / join search took " + completeTime + "ms");
    }
}

ForkJoin统计文件夹中包含关键词的数量的更多相关文章

Path,Files巩固,题目:从键盘接收两个文件夹路径,把其中一个文件夹中(包含内容)拷贝到另一个文件夹中
这个题目用传统的File,InputStream可以做,但是如果用Files,Path类做,虽然思路上会困难一些,但是代码简洁了很多,以下是代码: import java.io.IOException ...
使用.NET统计文件夹中文件总数
软件下载: http://hovertree.com/h/bjaf/hwqtjwjs.htm 截图: 使用方法:点击按钮,选择文件夹,就可以显示文件夹中包含的文件总数. 这个项目包含在HoverTre ...
【linux】统计文件夹中文件行数
统计当前目录下,排除venv目录,剩余所有py文件的行数 wc -l `find -path ./venv -prune -o -name '*py'`
java基础 File 递归删除文件夹中所有文件文件夹目录(包含子目录)下的.java文件复制到e:/abc文件夹中, 并统计java文件的个数
File 递归删除文件夹中所有文件文件夹 package com.swift.kuozhan; import java.io.File; import java.util.Scanner; /*键盘录 ...
用字符流实现每个文件夹中创建包含所有文件信息的readme.txt
package com.readme; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; i ...
用C语言实现统计一个文件夹中各种文件的比例
<UNIX环境高级编程>中的程序清单4-7就介绍了如何实现递归地统计某个目录下面的文件!我刚开始看过它的代码后,觉得照着敲太没意思了,所以就合上书自己写了一遍!为此还写了一篇博文,这是博文 ...
（文档）Shader.Find （在编译时，只包含那些使用中的shader或位置在"Resources"文件夹中shader）
Shader.Find 查找 static function Find (name : string) : Shader Description描述 Finds a shader with the g ...
【原】Mac下统计任意文件夹中代码行数的工
[链接][原]Mac下统计任意文件夹中代码行数的工http://www.cnblogs.com/wengzilin/p/4580646.html
.net网站上传图片换电脑不显示当不用网站的IP地址访问图片，只用相对路径访问时，在发布网站的时候，将上传图片的目标文件夹，包含在项目中再发布即可。
.net网站上传图片换电脑不显示当不用网站的IP地址访问图片,只用相对路径访问时,在发布网站的时候,将上传图片的目标文件夹,包含在项目中再发布即可.

随机推荐

P1002 Hello,World!
题目描述输出"Hello Wolrd!". 输入格式无. 输出格式输出一行"Hello World!". 样例输入无. 样例输出 Hello World ...
9月29更新美版T-mobile版本iPhone7代和7P有锁机卡贴解锁方法
T版是块难解的砖头,之前一直没有找到稳定解锁办法,经过多次不写努力和实验,终于解决不管是用超雪卡贴还是GPP卡贴,第一次先用连接WIFI激活手机! 注意:一定不要用ICCID通用激活,或者是TM ...
while循环&CPU占用率高问题深入分析与解决方案
直接上一个工作中碰到的问题,另外一个系统开启多线程调用我这边的接口,然后我这边会开启多线程批量查询第三方接口并且返回给调用方.使用的是两三年前别人遗留下来的方法,放到线上后发现确实是可以正常取到结果, ...
linux 内存区
GFP_DMA 和 GFP_HIGHMEM 都有一个平台相关的角色, 尽管对所有平台它们的使用都有效. Linux 内核知道最少 3 个内存区: DMA-能够内存, 普通内存, 和高端内存. 尽管 ...
Qt4.5 QFrame（相当于Delphi里的TPanel，有各种凹凸方式）
QFrame类是有框架的窗口部件的基类. QPopupMenu使用这个来把菜单“升高”,高于周围屏幕.QProgressBar有“凹陷”的外观.QLabel有平坦的外观.这些有框架的窗口部件可以被改变 ...
记一次手工清除挖矿病毒WannaMine V4.0的经历
[作者:byeyear 邮箱:byeyear@hotmail.com 转载请注明] 前两天公司信息安全处通知我的计算机存在永恒之蓝漏洞并已被病毒感染,使用多方杀软及专杀工具均无法有效清除, ...
Centos 7.5安装 Redis 5.0.0
1 我的环境 1.1 linux(腾讯云) CentOS Linux release 7.5.1804 (Core) 1.2 Redis Redis 5.0.0 2 下载官网官网下载地址 3 ...
java_字段初始化的规律、静态方法中访问类的实例成员、查询创建对象的个数
字段初始化规律: 当执行如下代码时 class InitializeBlockClass{ public int field=100; { field=200; } public Initialize ...
zabbix安装完成后查看编译参数
最近学习zabbix分布式监控系统,突然想如何查看自己编译时的参数,最终找到自己想要的结果. 1.首先进入zabbix源码目录 2.用ls -l命令查看是否有一个叫config.log文件 3.这个文 ...
iOS颜色转换成图片的方法
// 颜色转换为背景图片 - (UIImage *)imageWithColor:(UIColor *)color { CGRect rect = CGRectMake(0.0f, 0.0f, 1.0 ...

ForkJoin统计文件夹中包含关键词的数量

2018-06-09总结:

ForkJoin统计文件夹中包含关键词的数量的更多相关文章

随机推荐

热门专题