《算法》第五章部分程序 part 6

▶ 书中第五章部分程序，包括在加上自己补充的代码，非确定性有穷自动机（NFA），grep 命令（利用 NFA 匹配）

● 非确定性有穷自动机（NFA）

 package package01;

 import edu.princeton.cs.algs4.StdOut;

 import edu.princeton.cs.algs4.Bag;

 import edu.princeton.cs.algs4.Stack;

 import edu.princeton.cs.algs4.Digraph;

 import edu.princeton.cs.algs4.DirectedDFS;

 public class class01

 {

     private Digraph graph;     // 含 ε-转移 的有穷自动机图

     private String regexp;     // 输入的正则表达式

     private final int m;       // 正则表达式包含的字符数

     public class01(String inputRegexp)                             // 根据正则表达式构造 NFA

     {

         regexp = inputRegexp;

         m = regexp.length();

         Stack<Integer> ops = new Stack<Integer>();

         graph = new Digraph(m + 1);                                 // 自动机的状态数比正则表达式多 1

         for (int i = 0; i < m; i++)

         {

             int lp = i;                                             // 指向当前操作数

             if (regexp.charAt(i) == '(' || regexp.charAt(i) == '|') // 遇到 '(' 和 '|'，压栈

                 ops.push(i);

             else if (regexp.charAt(i) == ')')                       // 遇到 ')'，吐栈

             {

                 int or = ops.pop();

                 if (regexp.charAt(or ) == '|')                      // 吐出'|'，需要添加两条边，设原文为 (A|B)

                 {

                     lp = ops.pop();                                 // 取出在此之前的 '('

                     graph.addEdge(lp, or +1);                       // 第一条边从 '(' 指向 '|' 的后一节点，表示支路 B

                     graph.addEdge(or , i);                          // 第二条边从 '|' 指向 ')' 之后，表示支路 A

                 }

                 else if (regexp.charAt(or ) == '(')                 // 吐出 '('，说明存在一个整体'(...)'，用 lp 标记起点，服务于后边的 '*'

                     lp = or ;

                 else

                     assert false;                                   // 栈顶是其他东西（遇不到该分支？因为没有把其他东西压入栈中）

             }

             if (i < m - 1 && regexp.charAt(i + 1) == '*')           // 下一个字符是闭包，需要添加两条边

             {

                 graph.addEdge(lp, i + 1);                           // 第一条边从当前节点指向 '*' 节点

                 graph.addEdge(i + 1, lp);                           // 第二条边从 '*' 节点指向当前节点，如果当前节点是 ')'，则指向当前整体的起点处

             }

             if (regexp.charAt(i) == '(' || regexp.charAt(i) == '*' || regexp.charAt(i) == ')')  // 如果当前符号是'(*)' 三者之一，则添加添加一条正常边指向下一节点

                 graph.addEdge(i, i + 1);

         }

         if (ops.size() != 0)

             throw new IllegalArgumentException("Invalid regular expression");

     }

     public boolean recognizes(String txt)               // 使用生成的 NFA 识别输入的字符串

     {

         Bag<Integer> pc = new Bag<Integer>();           // 存放当前能够到达的所有节点

         DirectedDFS dfs = new DirectedDFS(graph, 0);    // 从节点 0 深度优先遍历，表示读取正文第 0 位之前就能通过 ε-转移 到达的所有状态，放入背包 pc 中

         for (int v = 0; v < graph.V(); v++)

         {

             if (dfs.marked(v))

                 pc.add(v);

         }

         for (int i = 0; i < txt.length(); i++)          // 循环每次取原文的一个字符

         {

             if (txt.charAt(i) == '*' || txt.charAt(i) == '|' || txt.charAt(i) == '(' || txt.charAt(i) == ')')   // 被匹配的原文不能包含 '(*|)'

                 throw new IllegalArgumentException("text contains the metacharacter '" + txt.charAt(i) + "'");

             Bag<Integer> match = new Bag<Integer>();    // 临时背包，用于存放能与 txt[i] 匹配的所有正则表达式的状态（“状态” 指的是节点编号）

             for (int v : pc)                            // 遍历 pc，即以当前能够到达的所有状态为起点尝试匹配 txt[i]

             {

                 if (v == m)                             // pc 包含节点 m，说明已经到达了终点，完成匹配

                     continue;

                 if ((regexp.charAt(v) == txt.charAt(i)) || regexp.charAt(v) == '.') // txt[i] 与正则表达式当前的某个状态可以匹配，向 match 中写入 v 的下一节点

                     match.add(v + 1);

             }

             dfs = new DirectedDFS(graph, match);        // 以 match 所有元素为起点深度优先遍历，表示当前所有可达节点通过 ε-转移 到达的所有状态

             pc = new Bag<Integer>();                    // 更新 pc

             for (int v = 0; v < graph.V(); v++)

             {

                 if (dfs.marked(v))

                     pc.add(v);

             }

             if (pc.size() == 0)                         // pc 空，说明没有任何可达状态了，停止匹配

                 return false;

         }

         for (int v : pc)                                // 遍历 pc，如果包含节点 m，说明到达了终点，完成匹配

         {

             if (v == m)

                 return true;

         }

         return false;

     }

     public static void main(String[] args)

     {

         String regexp = "(" + args[0] + ")", txt = args[1]; // 输入的正则表达式最外层用括号包住

         class01 nfa = new class01(regexp);

         StdOut.println(nfa.recognizes(txt));

     }

 }

● grep 命令实现

 package package01;

 import edu.princeton.cs.algs4.StdIn;

 import edu.princeton.cs.algs4.StdOut;

 import edu.princeton.cs.algs4.NFA;

 public class class01

 {

     private class01() {}

     public static void main(String[] args)

     {

         String regexp = "(.*" + args[0] + ".*)";

         for (NFA nfa = new NFA(regexp); StdIn.hasNextLine();)

         {

             String line = StdIn.readLine();

             if (nfa.recognizes(line))

                 StdOut.println(line);

         }

     }

 }

《算法》第五章部分程序 part 6的更多相关文章

《算法》第五章部分程序 part 3
▶ 书中第五章部分程序,包括在加上自己补充的代码,字符串高位优先排序(美国国旗排序) ● 美国国旗排序 package package01; import edu.princeton.cs.algs4 ...
《算法》第五章部分程序 part 8
▶ 书中第五章部分程序,包括在加上自己补充的代码,适用于基因序列的 2-Bit 压缩算法,行程长压缩算法,Huffman 压缩算法,LZW 压缩算法 ● 适用于基因序列的 2-Bit 压缩算法 pac ...
《算法》第五章部分程序 part 7
▶ 书中第五章部分程序,包括在加上自己补充的代码,字符串的二进制表示.十六进制表示.图形表示 ● 二进制表示 package package01; import edu.princeton.cs.al ...
《算法》第五章部分程序 part 5
▶ 书中第五章部分程序,包括在加上自己补充的代码,Knuth-Morris-Pratt 无回溯匹配,Boyer - Moore 无回溯匹配,Rabin - Karp 指纹匹配 ● Knuth-Morr ...
《算法》第五章部分程序 part 4
▶ 书中第五章部分程序,包括在加上自己补充的代码,Trie 树类,Trie 集合,三值搜索树(Ternary Search Trie) ● Trie 树类 package package01; imp ...
《算法》第五章部分程序 part 2
▶ 书中第五章部分程序,包括在加上自己补充的代码,字符串高位优先排序(计数 + 插排),(原地排序),(三路快排,与前面的三路归并排序相同) ● 计数 + 插排 package package01; ...
《算法》第五章部分程序 part 1
▶ 书中第五章部分程序,包括在加上自己补充的代码,字母表类,字符串低位优先排序(桶排) ● 字母表类 package package01; import edu.princeton.cs.algs4. ...
Gradle 1.12用户指南翻译——第四十五章. 应用程序插件
本文由CSDN博客貌似掉线翻译,其他章节的翻译请参见: http://blog.csdn.net/column/details/gradle-translation.html 翻译项目请关注Githu ...
《算法》第一章部分程序 part 1
▶ 书中第一章部分程序,加上自己补充的代码,包括若干种二分搜索,寻找图上连通分量数的两种算法 ● 代码,二分搜索 package package01; import java.util.Arrays; ...

随机推荐

paramiko 实现ssh登录和sftp登录
简单ssh登录 import paramiko ssh = paramiko.SSHClient() ssh.set_missing_host_key_policy(paramiko.AutoAddP ...
Python实例讲解 -- wxpython 基本的控件（按钮）
使用按钮工作在wxPython 中有很多不同类型的按钮.这一节,我们将讨论文本按钮.位图按钮.开关按钮(toggle buttons )和通用(generic )按钮. 如何生成一个按钮? 在第一部 ...
WPF Demo19 命令、UC
命令系统的基本元素和关系WPF命令系统的组成要素:A.命令(command):WPF命令实际上就是实习了ICommand接口的类.平时使用最多的就是RoutedCommand类.B.命令源(comma ...
将Word,PDF文档转化为图片
#region 将Word文档转化为图片 /// <summary> /// 将Word文档转化为图片 /// </summary> /// <param name=&q ...
常用的几个vagrant命令
$ vagrant init # 初始化 $ vagrant up # 启动虚拟机$ vagrant halt # 关闭虚拟机$ vagrant reload ...
NIO文件锁FileLock
目录 <linux文件锁flock> <NIO文件锁FileLock> <java程序怎么在一个电脑上只启动一次,只开一个进程> 文件锁可以是shared(共享锁) ...
廖雪峰Java2面向对象编程-2数据封装-1方法
1.数据封装一个class可以包含多个field.直接把field用public暴露给外部可能破坏了封装,例如传入不合理的数值(年龄填入1000).如下 public class Person { ...
es6数组的方法
1.复习的函数函数是由关键字function声明的,他是一个引用数据类型,是Function的实例,在调用的时候会开辟一个私有空间 2.函数的成员 arguments:null (是实参构成的数组 ...
PHP中的static的理解
静态方法 (1)静态方法不能访问这个类中的普通属性,因为那些属性属于一个对象,但可以访问静态属性: (2)从当前类(不是子类)中访问静态方法或属性,可以使用 self 关键字,self 指向当前类,就 ...
OpenSips使用说明
OpenSips使用说明安装MYSQL 安装及初始化下载地址:http://dev.mysql.com/get/Downloads/MySQL-5.7/mysql-5.7.17-linux-gli ...

《算法》第五章部分程序 part 6

《算法》第五章部分程序 part 6的更多相关文章

随机推荐

热门专题