《算法》第六章部分程序 part 4

▶ 书中第六章部分程序，包括在加上自己补充的代码，利用后缀树查找最长重复子串、查找最大重复子串并输出其上下文（Key word in context，KWIC）、求两字符串的最长公共子串

● 利用后缀树查找最长重复子串

 package package01;

 import edu.princeton.cs.algs4.StdIn;

 import edu.princeton.cs.algs4.StdOut;

 import edu.princeton.cs.algs4.SuffixArrayX;

 public class class01

 {

     private class01() {}

     public static String lrs(String text)

     {

         int n = text.length();

         SuffixArrayX sa = new SuffixArrayX(text);

         String lrs = "";

         for (int i = 1; i < n; i++)                             // 遍历一次，记录最长公共前缀

         {

             int length = sa.lcp(i);

             if (length > lrs.length())

                 lrs = text.substring(sa.index(i), sa.index(i) + length);

         }

         return lrs;

     }

     public static void main(String[] args)

     {

         String text = StdIn.readAll().replaceAll("\\s+", " ");  // 空白字符全部换成 ' '

         StdOut.println("'" + lrs(text) + "'");

     }

 }

● 利用后缀树查找最大重复子串并输出其上下文（Key word in context，KWIC）

 package package01;

 import edu.princeton.cs.algs4.In;

 import edu.princeton.cs.algs4.StdIn;

 import edu.princeton.cs.algs4.StdOut;

 import edu.princeton.cs.algs4.SuffixArrayX;

 public class class01

 {

     private class01() {}

     public static void main(String[] args)

     {

         In in = new In(args[0]);                                                    // 命令参数，分别为输入文件和需要输出的上下文字符数量

         int context = Integer.parseInt(args[1]);

         String text = in.readAll().replaceAll("\\s+", " ");

         int n = text.length();

         SuffixArrayX sa = new SuffixArrayX(text);

         for (; StdIn.hasNextLine(); StdOut.println())

         {

             String query = StdIn.readLine();

             for (int i = sa.rank(query); i < n; i++)

             {

                 int from1 = sa.index(i), to1 = Math.min(n, from1 + query.length()); // 取 index[i] 的头和尾，要求它和 query 不同

                 if (!query.equals(text.substring(from1, to1)))

                     break;

                 int from2 = Math.max(0, sa.index(i) - context), to2 = Math.min(n, sa.index(i) + context + query.length());

                 StdOut.println(text.substring(from2, to2));                         // 向前向后各取 context 个字符

             }

         }

     }

 }

● 利用后缀树求两字符串的最长公共子串

 package package01;

 import edu.princeton.cs.algs4.In;

 import edu.princeton.cs.algs4.StdOut;

 import edu.princeton.cs.algs4.SuffixArrayX;

 public class class01

 {

     private class01() {}

     private static String lcp(String s, int p, String t, int q)     // 返回 s[p] 和 t[q] 开始的两个子串的最大公共子串

     {

         int n = Math.min(s.length() - p, t.length() - q);

         for (int i = 0; i < n; i++)                                 // 逐元素比较就好了，返回保持相等的最长子串

         {

             if (s.charAt(p + i) != t.charAt(q + i))

                 return s.substring(p, p + i);

         }

         return s.substring(p, p + n);

     }

     private static int compare(String s, int p, String t, int q)    // 比较两个后缀元素的字典序，用于判断哪个后缀元素要改用下一个

     {

         int n = Math.min(s.length() - p, t.length() - q);

         for (int i = 0; i < n; i++)

         {

             if (s.charAt(p + i) != t.charAt(q + i))

                 return s.charAt(p + i) - t.charAt(q + i);

         }

         if (s.length() - p < t.length() - q)

             return -1;

         else if (s.length() - p > t.length() - q)

             return +1;

         return  0;

     }

     public static String lcs(String s, String t)

     {

         SuffixArrayX suffix1 = new SuffixArrayX(s), suffix2 = new SuffixArrayX(t);

         String lcs = "";

         for (int i = 0, j = 0; i < s.length() && j < t.length();)   // 两个后缀数组比较 O(s.length() + t.length()) 次

         {                                                           // 每次检查两个后缀元素的最长相等子串

             int p = suffix1.index(i), q = suffix2.index(j);         // 一旦找到不相等的元素，字典序靠前的元素就取下一个后缀元素继续比较

             String x = lcp(s, p, t, q);

             if (x.length() > lcs.length())

                 lcs = x;

             if (compare(s, p, t, q) < 0)

                 i++;

             else

                 j++;

         }

         return lcs;

     }

     public static void main(String[] args)

     {

         In in1 = new In(args[0]), in2 = new In(args[1]);

         String s = in1.readAll().trim().replaceAll("\\s+", " ");

         String t = in2.readAll().trim().replaceAll("\\s+", " ");

         StdOut.println("'" + lcs(s, t) + "'");

     }

 }

《算法》第六章部分程序 part 4的更多相关文章

《算法》第六章部分程序 part 7
▶ 书中第六章部分程序,加上自己补充的代码,包括全局最小切分 Stoer-Wagner 算法,最小权值二分图匹配 ● 全局最小切分 Stoer-Wagner 算法 package package01; ...
《算法》第六章部分程序 part 6
▶ 书中第六章部分程序,包括在加上自己补充的代码,包括二分图最大匹配(最小顶点覆盖)的交替路径算法和 HopcroftKarp 算法 ● 二分图最大匹配(最小顶点覆盖)的交替路径算法 package ...
《算法》第六章部分程序 part 5
▶ 书中第六章部分程序,包括在加上自己补充的代码,网络最大流 Ford - Fulkerson 算法,以及用到的流量边类和剩余流量网络类 ● 网络最大流 Ford - Fulkerson 算法 pac ...
《算法》第六章部分程序 part 8
▶ 书中第六章部分程序,加上自己补充的代码,包括单纯形法求解线性规划问题 ● 单纯形法求解线性规划问题 // 表上作业法,I 为单位阵,y 为对偶变量,z 为目标函数值 // n m 1 // ┌── ...
《算法》第六章部分程序 part 3
▶ 书中第六章部分程序,包括在加上自己补充的代码,后缀树的两种实现 ● 后缀树实现一 package package01; import java.util.Arrays; import edu.pr ...
《算法》第六章部分程序 part 2
▶ 书中第六章部分程序,包括在加上自己补充的代码,B-树 ● B-树 package package01; import edu.princeton.cs.algs4.StdOut; public c ...
《算法》第六章部分程序 part 1
▶ 书中第六章部分程序,包括在加上自己补充的代码,粒子碰撞系统及用到的粒子类 ● 粒子系统 package package01; import java.awt.Color; import edu.p ...
《算法》第一章部分程序 part 1
▶ 书中第一章部分程序,加上自己补充的代码,包括若干种二分搜索,寻找图上连通分量数的两种算法 ● 代码,二分搜索 package package01; import java.util.Arrays; ...
《算法》第二章部分程序 part 5
▶ 书中第二章部分程序,加上自己补充的代码,包括利用优先队列进行多路归并和堆排序 ● 利用优先队列进行多路归并 package package01; import edu.princeton.cs.a ...

随机推荐

kali 安装qq
使用的是longene TM2013 下载地址(百度云):http://pan.baidu.com/s/1dFx8azv 安装: 64位的需要安装32位依赖文件用这条命令 apt-get insta ...
MySQL性能管理及架构设计
第1章实例和故事 1-1 什么决定了电商双11大促的成败老板可能会说:"是我们的英明决策和运筹帷幄". 运营和产品可能会说:"是由于我们的活动策划和产品设计" ...
IKAnalyzer 添加扩展词库和自定义词
原文链接http://blog.csdn.net/whzhaochao/article/details/50130605 IKanalyzer分词器 IK分词器源码位置 http://git.osch ...
sql server 安装时提示要重启
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Session Manager 打开“Session Manager”文件夹之后在右侧的区域中单 ...
influxDB硬件配置指南
原地址:https://docs.influxdata.com/influxdb/v1.6/guides/hardware_sizing/ 警告!此页面记录了不再积极开发的InfluxDB的早期版本. ...
查询某个SPID，session_id对应的执行sql.
select er.session_id, CAST(csql.text AS varchar(255)) AS CallingSQL from master.sys.dm_exec_requests ...
Windows下利用TortoiseSVN搭建本地SVN服务器
写在前面: 安装TortoiseSVN时,图中这步要选择,才能同时安装后面需要的svnserve.exe 环境说明: Win 7 TortoiseSVN 1.7 搭建步骤: 0. 新建一个目录,做&q ...
JavaEE Web 开发链接 mysql 出现 Class.not found的错误
明明在项目的library里头导入过mysql-connector.jar的包,但是在加载driver的时候eclipse一直报这个错误.解决方案其实很简单,就是同样的jar包在tomcat的安装目录 ...
python之冒泡排序（一）
冒泡排序冒泡排序(英语:Bubble Sort)是一种简单的排序算法.它重复地遍历要排序的数列,一次比较两个元素,如果他们的顺序错误就把他们交换过来. 遍历数列的工作是重复地进行直到没有再需要交换, ...
jdbi
JDBI是一个使用方便的SQL开发库,用符合Java语言习惯的集合.Bean等方式,提供关系数据库访问接口,同时保留了JDBC类似的信息.JDBI提供了链式和SQL两种风格的API. jdbi的网址是 ...

《算法》第六章部分程序 part 4

《算法》第六章部分程序 part 4的更多相关文章

随机推荐

热门专题