在上个星期阿里巴巴一面的时候,最后面试官问我如何把一篇文章中重复出现的词或者句子找出来,当时太紧张,答的不是很好。今天有时间再来亲手实现一遍。其实说白了也就是字符串的处理,所以难度并不是很大。

以下是代码和运行效果:

实现方法:

 import java.io.*;
import java.util.*; /**
* Created by chunmiao on 17-3-20.
*/
public class ReadArticle {
//读取文件名称
private String filename;
//读取段落
private ArrayList<String> result = new ArrayList<>();
//最小字长(两个字以上进行匹配)
private final int MINSIZE = 2;
//重复词储存
HashSet<String> set; public ReadArticle(String filename, HashSet<String> set) {
this.filename = filename;
this.set = set;
} public void createData() throws IOException {
String r;
//读取文章内容
BufferedReader in = new BufferedReader(new FileReader(new File(filename).getAbsoluteFile()));
try {
while ((r = in.readLine()) != null) {
//消除不必要的标点符号
r = r.replaceAll("\\s+ |“|\\[|‘|《| *|", "").trim();
//留下” , 。 。” ”。 ”, ? 》 -等作为划分句子的分割符标示
Collections.addAll(result, r.split(",|(。”|”(。|,)|。)|(\\])|”|’|?|:|》|-"));
}
}finally {
in.close();
} //对文章内容进行遍历找出重读出现的句子或者是词语
for (int i = 0 ; i < result.size() - 1; i ++){
for (int j = 0 ; j < result.size() - i - 1; j ++) {
//将重复出现的词语保存到set集合里面
set.addAll(getSameCharacter(result.get(i), result.get(j + i + 1)));
}
} } private ArrayList<String> getSameCharacter(String a1, String a2){
String maxS;
String minS;
//短句遍历开始处
int start = 0;
//词的长度最短为两个字长
int range =2;
//设定短句和长句s,使得遍历更加快捷
if (a1.length() <= a2.length()){
maxS = a2;
minS = a1;
}else {
maxS = a1;
minS = a2;
}
String result = "";
ArrayList<String> list = new ArrayList<String>();
//防止substring时超出范围
while (start + range <= minS.length()) {
//如果句子或词在对象里面,则找出相应的句子或词保存在list里面
if (maxS.indexOf(minS.substring(start, start + range)) != -1) {
//获取最长句子,删除短句子
list.remove(result);
list.add(minS.substring(start, start + range));
result = minS.substring(start, start + range);
range++;
continue;
}
range = MINSIZE;
start++;
}
return list;
}
}

测试代码:

 import java.io.IOException;
import java.util.HashSet; public class Main { public static void main(String[] args) throws IOException {
String filename = "test.txt";
HashSet<String> result = new HashSet<String>();
ReadArticle read = new ReadArticle(filename,result);
read.createData();
System.out.println("这篇文章中的重复出现的词或句子有以下几个词或句子:\n");
for (String s : result){
System.out.println(s);
}
}
}

读取的文章内容:

正则匹配结果(去掉多余字符):

字符串转换成ArrayList: 

最终处理结果:

其实从上面的结果可以看出。单纯的操控字符串并不能判断它是否是一个完整的词和句,应该还要配合数据库字典来匹配上面的结果,从而找出真正的词和句。

Java实现读取文章中重复出现的中文字符串的更多相关文章

  1. JAVA实验--统计文章中单词的个数并排序

    分析: 1)要统计单词的个数,就自己的对文章中单词出现的判断的理解来说是:当出现一个非字母的字符的时候,对前面的一部分字符串归结为单词 2)对于最后要判断字母出现的个数这个问题,我认为应该是要用到ma ...

  2. Java去除ArrayList集合中重复字符串的案例

    ArrayList去除集合中的字符串重复值 分析: A:创建集合对象 B:添加多个字符串元素 C:创建新集合 D:遍历旧集合,获取得到每一个元素 E:拿着个元素到新集合去找,看有没有 有:不进去 没有 ...

  3. JAVA导入(读取)Excel中的数据(支持xls与xlsx文件)

    一.导入jar包 poi-3.7.jarpoi-scratchpad-3.7.jarpoi-examples-3.7.jarpoi-ooxml-3.7.jarpoi-ooxml-schemas-3.7 ...

  4. java后台读取配置文件中key与value -----demo2

    /** * * @Title: getValue * @Description: TODO * @param key * @return import java.util.Properties; * ...

  5. java后台读取配置文件中key与value -----demo

    public class ResourcesUtils { /* * @description:根据属性获取文件名 * * @param:propertyName文件的属性名 * * @return: ...

  6. 通过java api 读取sql 中数据(查询)

    配置文件:dbconfig.properties 里面的数据 jdbc.url.jwhat=jdbc\:mysql\://ip\:3306/laibadev?useUnicode\=true& ...

  7. java jxl读取excel中Date类型

    Workbook book = Workbook.getWorkbook(excel); Sheet sheet = book.getSheet(0); int clos = sheet.getCol ...

  8. java中用正則表達式推断中文字符串中是否含有英文或者数字

    public static boolean includingNUM(String str)throws  Exception{ Pattern p  = Pattern.compile(" ...

  9. [Java] 在 jar 文件中读取 resources 目录下的文件

    注意两点: 1. 将资源目录添加到 build path,确保该目录下的文件被拷贝到 jar 文件中. 2. jar 内部的东西,可以当作 stream 来读取,但不应该当作 file 来读取. 例子 ...

随机推荐

  1. 使用Typescript来写javascript

    使用Typescript来写javascript 前几天尝试使用haxejs来写javascript,以获得静态类型带来的益处.虽然成功了,但很快发现将它与angularjs一起使用,有一些不太顺畅的 ...

  2. 新生命组件XAgent使用心得

    1.简单介绍 XAgent为大石头带领下的新生命团队自己开发的一个.Net下的常用的Windows服务管理组件利器,通过在控制台中简单的输入1,2,3,4,5等数字可以实现一步安装.卸载Windows ...

  3. java io基础(java.io)

    首先流分为输入和输出流,java分为字节流和字符流 1.字节输入流io.InputStream io.InputStream是一个抽象类它实现了Closeable接口的抽象类.那么它的子类(io包下) ...

  4. CSS3知识点整理(二)----CSS3选择器

    总结各种CSS3选择器的介绍及具体语法 (一)属性选择器 在CSS2中引入了一些属性选择器,而CSS3在CSS2的基础上对属性选择器进行了扩展,新增了3个属性选择器,使得属性选择器有了通配符的概念,这 ...

  5. Error:(2, 0) Plugin with id 'com.github.dcendents.android-maven' not found. <a href="openFile:I:\API\PermissionGen-master\permissiongen\build.gradle">Open File</a>

    不上图说个*** 报这个错的原因是因为 你在project中的build.gradle 少写了两句话 所以报这个错 你只需要在build.gradle中添加 classpath 'com.github ...

  6. matlab 利用persistent关键字 存储持久变量

    数学知识:标准差体现随机变量取值与其期望值的偏差.标准差的值较大,则表明该随机变量的取值与其期望值的偏差较大反之,则表明此偏差较小.函数功能:函数必须能够接受一次输入值并记录对应的已输入数N.sum( ...

  7. tomcat启动异常、和web.xml缺少配置异常

    错误如下: 14-Feb-2017 10:50:00.665 SEVERE [RMI TCP Connection(3)-127.0.0.1] org.apache.catalina.core.Sta ...

  8. 细说Asp.Net WebAPI消息处理管道

    我们在开发完Asp.Net WebAPI程序后,可以使用WebHost寄宿方式或者SelfHost寄宿方式来部署Asp.Net WebAPI.所谓WebHost寄宿就是通过Asp.Net来实现:所谓S ...

  9. Raspberry树莓派学习笔记1—基本介绍

    树莓派的简单介绍 一个名片大小的迷你个人电脑主机,还有wifi/蓝牙... 运行完整的Linux操作系统(注意关键字:完整,不是精简过的嵌入式Linux) 开源的硬件平台.与普通主机不同的是,它带有简 ...

  10. 【Zookeeper】源码分析之请求处理链(二)

    一.前言 前面学习了请求处理链的RequestProcessor父类,接着学习PrepRequestProcessor,其通常是请求处理链的第一个处理器. 二.ZooKeeper源码分析 2.1 类的 ...