1. 来由

为什么要写提取注释呢，起因是工作需要。弄这么个不太重要的功能点来讲，旨在抛砖引玉。

一般而言，大家使用antlr解析源代码的时候，不会关心注释和空格之类内容，默认会过滤掉，不会放到语法树里，讲了，真把空格这类东西保留在语法树里，会带来很多问题。要保留注释的话，也不会放进语法树里，而是会导流到不同的channel里。channel可以理解为不同的管道，源文件解析后的token会通过默认管道，而注释等其它一些元素，可以导流到自定义管道。这样既不会给解析带来额外负担，也不会丢弃任何内容。

2. 抽取注释

闲话少说，怎么提取代码里的注释呢，在 12.1 Broadcasting Tokens on Different Channels这一节专门有讲。

2.1 语法定义-导流

首先在语法文件里进行不同channel的导流定义：

先看默认的，直接扔掉了：

WS  : [\t\n\r]+ ->  skip

SL_COMMENT

    : '//' .*? '\n' -> skip

    ;

重新定义-导流：

@lexer::members{

    public static final int WHITESPACE = 1;

    public static final int COMMENTS = 2;

}

WS  : [ \t\n\r]+ -> channel(WHITESPACE); //channel(1)

SL_COMMENT

    : '//' .*? '\n' -> channel(COMMENTS) //channel(2)

    ;

效果如下图所示，默认的是channel 0，其它用户自定义的都是hidden channel：

2.2 按规则（位置）提取

下面是12.1节里的示例，为什么说按位置提取呢，因为它是按照某个具体的规则定义来抽取注释的。示例代码是要将变量定义右侧的注释，挪动到代码行的上面。

具体实现：

/***

 * Excerpted from "The Definitive ANTLR 4 Reference",

 * published by The Pragmatic Bookshelf.

 * Copyrights apply to this code. It may not be used to create training material,

 * courses, books, articles, and the like. Contact us if you are in doubt.

 * We make no guarantees that this code is fit for any purpose.

 * Visit http://www.pragmaticprogrammer.com/titles/tpantlr2 for more book information.

***/

import org.antlr.v4.runtime.*;

import org.antlr.v4.runtime.tree.ParseTreeWalker;

import java.io.FileInputStream;

import java.io.InputStream;

import java.util.List;

public class ShiftVarComments {

    public static class CommentShifter extends CymbolBaseListener {

        BufferedTokenStream tokens;

        TokenStreamRewriter rewriter;

        /** Create TokenStreamRewriter attached to token stream

         *  sitting between the Cymbol lexer and parser.

         */

        public CommentShifter(BufferedTokenStream tokens) {

            this.tokens = tokens;

            rewriter = new TokenStreamRewriter(tokens);

        }

        @Override

        public void exitVarDecl(CymbolParser.VarDeclContext ctx) {

            Token semi = ctx.getStop();

            int i = semi.getTokenIndex();

            List<Token> cmtChannel =

                tokens.getHiddenTokensToRight(i, CymbolLexer.COMMENTS);

            if ( cmtChannel!=null ) {

                Token cmt = cmtChannel.get(0);

                if ( cmt!=null ) {

                    String txt = cmt.getText().substring(2);

                    String newCmt = "/* " + txt.trim() + " */\n";

                    rewriter.insertBefore(ctx.start, newCmt);

                    rewriter.replace(cmt, "\n");

                }

            }

        }

    }

    public static void main(String[] args) throws Exception {

        String inputFile = null;

        if ( args.length>0 ) inputFile = args[0];

        InputStream is = System.in;

        if ( inputFile!=null ) {

            is = new FileInputStream(inputFile);

        }

        ANTLRInputStream input = new ANTLRInputStream(is);

        CymbolLexer lexer = new CymbolLexer(input);

        CommonTokenStream tokens = new CommonTokenStream(lexer);

        CymbolParser parser = new CymbolParser(tokens);

        RuleContext tree = parser.file();

        ParseTreeWalker walker = new ParseTreeWalker();

        CommentShifter shifter = new CommentShifter(tokens);

        walker.walk(shifter, tree);

        System.out.print(shifter.rewriter.getText());

    }

}

从上述代码可以看到，CommentShifter继承listener模式，重载了exitVarDecl方法。在遍历parse tree的时候，会自动调用exitVarDecl，完成了注释顺序改写功能。exitVarDecl对应了语法文件里面的变量定义规则，每当有变量定义的时候，就会调用该方法。

2.3 按channel提取所有注释

上面的注释提取方法有个问题，就是只能提取相应规则的注释。函数有注释，类有注释，参数可能有注释，等等，还有很多别的地方，如果都提取的话，则要费一番周折，弄上一堆函数定义。

如果不关心注释所在的具体规则，只提取注释的话，可以遍历token，通过判断token所在的channel来实现。语法文件里将注释导流到channel(2)，那么凡是channel值为2的token则为注释，这就好办了。

    private static void printComments(String code){

        CPP14Lexer lexer = new CPP14Lexer(new ANTLRInputStream(code));

        CommonTokenStream tokens = new CommonTokenStream(lexer);

        List<Token> lt = tokens.getTokens();

        for(Token t:lt){

            // if t is on channel 2 which is comments channel(configured in grammar file)

            // simply pass t, otherwise for two adjacent comments line the first comment line will

            // appear twice

            if(t.getChannel() == 2) continue;

            // getHiddenTokensToLeft will suffice to get all comments

            // no need to call getHiddenTokensToRight

            int tokenIndex = t.getTokenIndex();

            List<Token> comments = tokens.getHiddenTokensToLeft(tokenIndex);

            if(comments != null && comments.size() > 0){

                for(Token c:comments){

                    System.out.println("    " + c.getText());

                }

            }

        }

    }

antlr提取代码注释的更多相关文章

IT荐书|10个最“牛叉”的代码注释
下面是网友针对“你看到过的最好的代码注释是什么样的?”这个问题给出的回答的前10条: 1. // 亲爱的维护者: // 如果你尝试了对这段程序进行‘优化’, // 并认识到这种企图是大错特错,请增加 ...
java代码注释规范
java代码注释规范代码注释是架起程序设计者与程序阅读者之间的通信桥梁,最大限度的提高团队开发合作效率.也是程序代码可维护性的重要环节之一.所以我们不是为写注释而写注释.下面说一下我们在诉求网二 ...
PHPDocument 代码注释规范总结
PHPDocument 代码注释规范 1. 安装phpDocumentor(不推荐命令行安装)在http://manual.phpdoc.org/下载最新版本的PhpDoc放在web服务器目录下使得通 ...
[转]java代码注释规范
代码注释是架起程序设计者与程序阅读者之间的通信桥梁,最大限度的提高团队开发合作效率.也是程序代码可维护性的重要环节之一.所以我们不是为写注释而写注释.下面说一下我们在诉求网二期开发中使用的代码注释规范 ...
vs2010代码注释自动生成api文档
最近做了一些接口,提供其他人调用,要写个api文档,可是我想代码注释已经写了说明,能不能直接把代码注释生成api?于是找到以下方法环境:vs2010 先下载安装Sandcastle 和Sandcas ...
【转】Objective-C代码注释和文档输出的工具和方法
http://blog.xcodev.com/blog/2013/11/01/code-comment-and-doc-gen-tools-for-objc/ 代码注释可以让代码更容易接受和使用,特别 ...
VVDocumenter - Xcod代码注释工具
刚接触IOS开发时,发现XCODE非常的强大的,后续的代码实践中发现XOCDE的代码文档注释非常的差, 每次都要用手敲,蛋疼至极: 随着不断学习发现XCODE有代码片段内嵌一说(如:for .bloc ...
了解HTML的代码注释
什么是代码注释?代码注释的作用是帮助程序员标注代码的用途,过一段时间后再看你所编写的代码,就能很快想起这段代码的用途. 代码注释不仅方便程序员自己回忆起以前代码的用途,还可以帮助其他程序员很快的读懂你 ...
C++统计代码注释行数 & 有效代码行数 & 代码注释公共行 & 函数个数
问题来源,在14年的暑假的一次小项目当中遇到了一个这样的问题,要求统计C++代码的注释行数,有效代码行数,代码注释公共行数,以及函数个数. 下面稍微解释一下问题, 1)注释行数:指有注释的行,包括有代 ...

随机推荐

[ajax] quick double or multiple click ajax submit cause chrome explorer's error snatshot
快速点击ajax提交,引发的错误截图1: snapshot -2:
射线与平面的相交检测(Ray-Plane intersection test)【转】
射线的定义在欧几里德几何中,射线的定义是:直线上一点和它一旁的部分.由此可知,射线有两个性质,一是只有一个端点,二是一端无限延伸. 射线的参数方程其中p0是射线的起点, u是射线的方向向量,t & ...
super函数的用法
1.创建一个类. # .创建一个类 class Bird: def __init__(self): self.hungry =True def eat(self): if self.hungry: p ...
【2019】OCP 12c 062题库更新大量新题-7
7.daily_ords_lst is created in locally managed tablespace ORDERS_TBS which uses automatic segment sp ...
“全栈2019”Java多线程第二十一章：同步代码块产生死锁的例子
难度初级学习时间 10分钟适合人群零基础开发语言 Java 开发环境 JDK v11 IntelliJ IDEA v2018.3 文章原文链接 "全栈2019"Java多 ...
关于popup
p1.html:点击添加按钮,开启窗口,打开p2.html,填写数据后返回p3.html,p3.html将数据回传到p1.html,且关闭自己 p1.html: <!DOCTYPE html ...
ssh 登陆端口转发
man ssh ssh [-1246AaCfgKkMNnqsTtVvXxYy] [-b bind_address] [-c cipher_spec] [-D [bind_address:]port] ...
四，mysql优化——sql语句优化之索引二
1,在什么列适合添加索引 (1)较频繁的作为查询条件字段应该添加索引 select * from emp where empid = 2; (2)唯一性太差的字段不适合添加索引,即时频繁作为查询条件. ...
CentOS7下 Python2.7.5升级为Python2.7.13
参考:https://www.jianshu.com/p/fad3942fc0ed 第一步:查看Centos版本及Python版本 • CentOS版本 [root@ tools_package]# ...
JVM中的对象生命周期
在JVM运行空间中,对象的整个生命周期大致可以分为七个阶段:创建阶段(Creation).应用阶段(Using).不可视阶段(Invisible).不可到达阶段( Unreachable).可收集阶段 ...

antlr提取代码注释