ForkJoin统计文件夹中包含关键词的数量
2018-06-09总结:
ForkJoin确实可以很快速的去解析文件并统计关键词的数量,但是如果文件过大就会出现内存溢出,是否可以通过虚拟内存方式解决内存溢出的问题呢?
package com.oxygen.forkjoin.model;
import java.util.List;
/**
* 文档
* @author renguanyu
*
*/
public class Document {
private List<String> lines;
public Document(List<String> lines) {
super();
this.lines = lines;
}
public List<String> getLines() {
return lines;
}
public void setLines(List<String> lines) {
this.lines = lines;
}
}
package com.oxygen.forkjoin.model;
import java.util.List;
/**
* 文件夹
* @author renguanyu
*
*/
public class Folder {
private List<Folder> subFolders;
private List<Document> documents;
public Folder(List<Folder> subFolders, List<Document> documents) {
this.subFolders = subFolders;
this.documents = documents;
}
public List<Folder> getSubFolders() {
return subFolders;
}
public void setSubFolders(List<Folder> subFolders) {
this.subFolders = subFolders;
}
public List<Document> getDocuments() {
return documents;
}
public void setDocuments(List<Document> documents) {
this.documents = documents;
}
}
package com.oxygen.forkjoin.service;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import com.oxygen.forkjoin.model.Document;
/**
* 文档服务
* @author renguanyu
*
*/
public class DocumentService {
/**
* 读取文件中所以数据
* @param file 文件
* @return 文档
*/
public static Document fromFile(File file) {
List<String> lines = new ArrayList<>();
try(BufferedReader reader = new BufferedReader(new FileReader(file))) {
String line = reader.readLine();
while (line != null) {
lines.add(line);
line = reader.readLine();
}
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}
return new Document(lines);
}
}
package com.oxygen.forkjoin.service;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.ForkJoinPool;
import com.oxygen.forkjoin.model.Document;
import com.oxygen.forkjoin.model.Folder;
import com.oxygen.forkjoin.task.FolderSearchTask;
/**
* 文件夹服务
* @author renguanyu
*
*/
public class FolderService{
/**
* 递归查询文件夹中所有的数据
* 1.在内存中建立文件夹的结构
* 2.把数据都加载到这个结构中,方便下一步计算
* @param dir 文件夹
* @return 文件夹
*/
public static Folder fromDirectory(File dir) {
List<Document> documents = new ArrayList<>();
List<Folder> subFolders = new ArrayList<>();
for (File entry : dir.listFiles()) {
if (entry.isDirectory()) {
subFolders.add(FolderService.fromDirectory(entry));
} else {
documents.add(DocumentService.fromFile(entry));
}
}
return new Folder(subFolders, documents);
}
/**
* 获取关键词总数
* @param targetFolder 目标文件夹
* @param keyword 关键词
* @throws IOException
*/
public static long getKeywordTotal(String targetFolder, String keyword) {
ForkJoinPool forkJoinPool = new ForkJoinPool();
//把文件夹中的数据加载到内存中,我这个文件夹中就一个日志文件
File dir = new File(targetFolder);
Folder folder = FolderService.fromDirectory(dir);
//创建一个搜索任务
FolderSearchTask task = new FolderSearchTask(folder, keyword);
//开始执行fork/join任务
long counts = forkJoinPool.invoke(task);
return counts;
}
}
package com.oxygen.forkjoin.task;
import java.util.List;
import java.util.concurrent.RecursiveTask;
import com.oxygen.forkjoin.model.Document;
/**
* 文档搜索任务
* @author renguanyu
*
*/
public class DocumentSearchTask extends RecursiveTask<Long> {
private static final long serialVersionUID = 1L;
private Document document;
private String searchedWord;
public DocumentSearchTask(Document document, String searchedWord) {
super();
this.document = document;
this.searchedWord = searchedWord;
}
@Override
protected Long compute() {
long count = 0;
List<String> lines = document.getLines();
for (String line : lines) {
String[] words = line.trim().split("(\\s|\\p{Punct})+");
for (String word : words) {
if (searchedWord.equals(word)) {
count = count + 1;
}
}
}
return count;
}
}
package com.oxygen.forkjoin.task;
import java.util.ArrayList;
import java.util.List;
import java.util.concurrent.RecursiveTask;
import com.oxygen.forkjoin.model.Document;
import com.oxygen.forkjoin.model.Folder;
/**
* 文件夹搜索任务
* @author renguanyu
*
*/
public class FolderSearchTask extends RecursiveTask<Long> {
private static final long serialVersionUID = 1L;
private Folder folder;
private String searchedWord;
public FolderSearchTask(Folder folder, String searchedWord) {
super();
this.folder = folder;
this.searchedWord = searchedWord;
}
//计算方法
@Override
protected Long compute() {
long count = 0L;
List<RecursiveTask<Long>> forks = new ArrayList<>();
//获取文件夹下的子文件夹
for (Folder subFolder : folder.getSubFolders()) {
//递归文件夹搜索任务
FolderSearchTask task = new FolderSearchTask(subFolder, searchedWord);
//把任务添加到分叉列表,用于合并任务
forks.add(task);
//放到工作队列中
task.fork();
}
//获取文件夹下的文档
for (Document document : folder.getDocuments()) {
DocumentSearchTask task = new DocumentSearchTask(document, searchedWord);
//把任务添加到分叉列表,用于合并任务
forks.add(task);
//放到工作队列中
task.fork();
}
//合并工作队列中各个线程计算结果的值
for (RecursiveTask<Long> task : forks) {
count = count + task.join();
}
return count;
}
}
package com.oxygen.forkjoin.test;
import java.io.IOException;
import com.oxygen.forkjoin.service.FolderService;
/**
* 测试程序
* @author renguanyu
*
*/
public class MainTest {
public static void main(String[] args) throws IOException {
long startTime = System.currentTimeMillis();
long counts = FolderService.getKeywordTotal("C:\\test\\logs\\", "null");
long stopTime = System.currentTimeMillis();
long completeTime = stopTime - startTime;
System.out.println(counts + " , fork / join search took " + completeTime + "ms");
}
}
ForkJoin统计文件夹中包含关键词的数量的更多相关文章
- Path,Files巩固,题目:从键盘接收两个文件夹路径,把其中一个文件夹中(包含内容)拷贝到另一个文件夹中
这个题目用传统的File,InputStream可以做,但是如果用Files,Path类做,虽然思路上会困难一些,但是代码简洁了很多,以下是代码: import java.io.IOException ...
- 使用.NET统计文件夹中文件总数
软件下载: http://hovertree.com/h/bjaf/hwqtjwjs.htm 截图: 使用方法:点击按钮,选择文件夹,就可以显示文件夹中包含的文件总数. 这个项目包含在HoverTre ...
- 【linux】统计文件夹中文件行数
统计当前目录下,排除venv目录,剩余所有py文件的行数 wc -l `find -path ./venv -prune -o -name '*py'`
- java基础 File 递归删除文件夹中所有文件文件夹 目录(包含子目录)下的.java文件复制到e:/abc文件夹中, 并统计java文件的个数
File 递归删除文件夹中所有文件文件夹 package com.swift.kuozhan; import java.io.File; import java.util.Scanner; /*键盘录 ...
- 用字符流实现每个文件夹中创建包含所有文件信息的readme.txt
package com.readme; import java.io.BufferedWriter; import java.io.File; import java.io.FileWriter; i ...
- 用C语言实现统计一个文件夹中各种文件的比例
<UNIX环境高级编程>中的程序清单4-7就介绍了如何实现递归地统计某个目录下面的文件!我刚开始看过它的代码后,觉得照着敲太没意思了,所以就合上书自己写了一遍!为此还写了一篇博文,这是博文 ...
- (文档)Shader.Find (在编译时,只包含那些使用中的shader或位置在"Resources"文件夹中shader)
Shader.Find 查找 static function Find (name : string) : Shader Description描述 Finds a shader with the g ...
- 【原】Mac下统计任意文件夹中代码行数的工
[链接][原]Mac下统计任意文件夹中代码行数的工http://www.cnblogs.com/wengzilin/p/4580646.html
- .net网站上传图片换电脑不显示 当不用网站的IP地址访问图片,只用相对路径访问时,在发布网站的时候,将上传图片的目标文件夹,包含在项目中再发布即可。
.net网站上传图片换电脑不显示 当不用网站的IP地址访问图片,只用相对路径访问时,在发布网站的时候,将上传图片的目标文件夹,包含在项目中再发布即可.
随机推荐
- linux主编号的动态分配
一些主设备编号是静态分派给最普通的设备的. 一个这些设备的列表在内核源码树的 Documentation/devices.txt 中. 分配给你的新驱动使用一个已经分配的静态编号的机会 很小, 但是, ...
- 一次接口压力测试qps极低原因分析及解决过程
一次接口压力测试qps极低原因分析及解决过程 9-2日在做内部的性能测试相关培训时,发现注册接口压力测试qps极低(20左右),这个性能指标远不能达到上线标准 ,经过一系列调试,最后定位 98%的时间 ...
- CF526F Pudding Monsters
CF526F Pudding Monsters 题目大意:给出一个\(n* n\)的棋盘,其中有\(n\)个格子包含棋子. 每行每列恰有一个棋子. 求\(k*k\)的恰好包含\(k\)枚棋子的子矩形个 ...
- dotnet 获取指定进程的输入命令行
本文告诉大家如何在 dotnet 获取指定的进程的命令行参数 很多的程序在启动的时候都需要传入参数,那么如何拿到这些程序传入的参数? 我找到两个方法,一个需要引用 C++ 库支持 x86 和 x64 ...
- LuoguP1402 酒店之王
LuoguP1402 酒店之王 最大流题目.带有一定的思维技(tao)巧(lu) 依旧分析题目.如果只有房间或者菜一种限制.那么就是一道裸的最大流了 可是两种条件都应当满足, 这貌似也可以做. 因为每 ...
- 大数据vs计算机
大数据有两个方向,一个是偏计算机的,另一个是偏经济的.你学过Java,所以你可以偏将计算机 基础1. 读书<Introduction to Data Mining>,这本书很浅显易懂,没有 ...
- Team Foundation Server 2015使用教程【9】:tfs用户账号切换
- acwing 102 -利用二分枚举区间平均值
我真的是服了,看了一晚上发现居然,,,,, 上图吧,话说有人评论没... 对于结果来说,不一定要枚举有序数列,感觉这是一种猜结果的方法,只不过特别精确,令人发指 #include<cstdio& ...
- alpha week 2/2 Scrum立会报告+燃尽图 06
此作业要求参见:https://edu.cnblogs.com/campus/nenu/2019fall/homework/9803 小组名称:“组长”组 组长:杨天宇 组员:魏新,罗杨美慧,王歆瑶, ...
- spring整合springMVC、mybatis、shiro
jar包: <properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding& ...