2018-08-27 使用JDT核心库解析JDK源码后初步分析API命名
源自术语词典API项目 · Issue #85 · program-in-chinese/overview, 打算先用早先的代码提取JDK API中的类/方法/参数名, 看看有哪些词需要翻译.
源码在program-in-chinese/programming_term_dictionary
类型名提取器.java 扩展了语法树遍历器, 对公开(public)的类型/方法/参数进行保存:
public class 类型名提取器 extends ASTVisitor {
  private 类型名 名 = new 类型名();
  private String 当前类名 = "";
  @Override
  public boolean visit(MethodDeclaration 方法节点) {
    String 当前方法名 = 方法节点.getName().getFullyQualifiedName();
    if (为公开声明(方法节点)) {
      名.方法名.put(当前方法名, 当前类名);
    }
    for (Object 参数 : 方法节点.parameters()) {
      VariableDeclaration 变量声明 = (VariableDeclaration) 参数;
      String 参数名 = 变量声明.getName().getFullyQualifiedName();
      // 忽略所有单字母参数名. TODO: 是否需要研究单字母命名?
      if (参数名.length() > 1) {
        名.参数名.put(参数名, 当前类名 + "." + 当前方法名);
      }
    }
    return super.visit(方法节点);
  }
  @Override
  public boolean visit(TypeDeclaration 类型节点) {
    if (为公开声明(类型节点)) {
      // TODO: 取完整类名(包括包名)
      当前类名 = 类型节点.getName().getFullyQualifiedName();
      名.类名.put(类型节点.getName().getFullyQualifiedName(), 当前类名);
    }
    return super.visit(类型节点);
  }
  public 类型名 获取名() {
    return 名;
  }
  private boolean 为公开声明(BodyDeclaration 节点) {
    return (节点.getModifiers() & Modifier.PUBLIC) != 0;
  }
  public class 类型名 {
    public Map<String, String> 类名 = new HashMap<>();
    public Map<String, String> 方法名 = new HashMap<>();
    public Map<String, String> 参数名 = new HashMap<>();
  }
}
遍历JDK类型名.java 暂时只对util部分进行分析
public class 遍历JDK类型名 {
  private static final ASTParser 语法解析器 = ASTParser.newParser(AST.JLS8);
  // JDK源码内路径
  private static final String 常量_源文件路径 = "java/util";
  private static final String 常量_输出文件路径 = "命名列表/";
  private static final 类型名提取器 提取器 = new 类型名提取器();
  /**
   *
   * @param 参数 第一个参数为JDK路径。可由JDK目录下的src.zip解压。
   * @throws Exception
   */
  public static void main(String[] 参数) throws Exception {
    if (参数.length != 1) {
      System.out.println("需要JDK源码路径作为唯一参数");
      return;
    }
    文件功用.创建路径(常量_输出文件路径);
    处理Java文件(new File(参数[0] + 常量_源文件路径));
    类型名 名 = 提取器.获取名();
    // 从方法列表中删除所有构造方法
    for (String 类名 : 名.类名.keySet()) {
      名.方法名.remove(类名);
    }
    String 后缀 = "_" + 常量_源文件路径.replaceAll("/", "_");
    文件功用.写行入文件(名.类名, 常量_输出文件路径 + "类" + 后缀 + ".txt");
    文件功用.写行入文件(名.方法名, 常量_输出文件路径 + "方法" + 后缀 + ".txt");
    文件功用.写行入文件(名.参数名, 常量_输出文件路径 + "参数" + 后缀 + ".txt");
    System.out.println("提取完毕: " + 名.类名.size() + "类;" + 名.方法名.size() + "方法;" + 名.参数名.size() + "参数");
  }
  private static void 处理Java文件(File 路径) throws Exception {
    if (路径.isFile()) {
      if (路径.getName().endsWith(".java")) {
        解析Java文件(路径);
      }
    } else {
      File[] 文件 = 路径.listFiles();
      if (文件 != null) {
        for (File 某文件 : 文件) {
          处理Java文件(某文件);
        }
      }
    }
  }
  private static void 解析Java文件(File 文件) throws Exception {
    语法解析器.setSource(文件功用.取源文件文本(文件).toCharArray());
    语法解析器.createAST(null).accept(提取器);
  }
}
初步统计:
提取完毕: 332类;1172方法;449参数
按照骆驼命名对提取出的命名进行单词拆分后, 得到902个单词, 其中有不少同根词, 如:
sequence
sequential
split
splittable
token
tokenizer
word
words
write
writer
zone
zoned
还有不少不明所以的:
csn
em
fd
接下去将拆分出的单词与源API联系起来, 以便翻译时结合原API语义(已更新上面的源码). 比如csn来源于java.util.Formatter.Formatter(String fileName, String csn, Locale l), javadoc中意为The name of a supported {@linkplain java.nio.charset.Charset charset}. 真猜不到.
顺便对所有java/下的源码进行统计:
1579类;5093方法;2022参数
2752个单词
5倍左右数量的API但单词数只有3倍, 看来复用率蛮高. 总单词表在此.
2018-08-27 使用JDT核心库解析JDK源码后初步分析API命名的更多相关文章
- 1.1 jvm核心类加载器--jdk源码剖析
		
目录 前提: 运行环境 1. 类加载的过程 1.1 类加载器初始化的过程 1.2 类加载的过程 1.3 类的懒加载 2. jvm核心类加载器 3. 双亲委派机制 4. 自定义类加载器 5. tomca ...
 - Python解析器源码加密系列之(二):一次使用标准c的FILE*访问内存块的尝试
		
摘要:由于近期打算修改Python解释器以实现pyc文件的加密/解密,出于保密的要求,解密之后的数据只能放在内存中,不能写入到文件中.但是后续的解析pyc文件的代码又只能接受FILE*作为入参,所以就 ...
 - 设计模式-简单工厂Coding+jdk源码解析
		
感谢慕课geely老师的设计模式课程,本套设计模式的所有内容均以课程为参考. 前面的软件设计七大原则,目前只有理论这块,因为最近参与项目重构,暂时没有时间把Coding的代码按照设计思路一点点写出来. ...
 - Jsoup解析网页源码时常用的Element(s)类
		
Jsoup解析网页源码时常用的Element(s)类 一.简介 该类是Node的直接子类,同样实现了可克隆接口.类声明:public class Element extends Node 它表示由一个 ...
 - HTTP请求库——axios源码阅读与分析
		
概述 在前端开发过程中,我们经常会遇到需要发送异步请求的情况.而使用一个功能齐全,接口完善的HTTP请求库,能够在很大程度上减少我们的开发成本,提高我们的开发效率. axios是一个在近些年来非常火的 ...
 - 如何实现一个HTTP请求库——axios源码阅读与分析 JavaScript
		
概述 在前端开发过程中,我们经常会遇到需要发送异步请求的情况.而使用一个功能齐全,接口完善的HTTP请求库,能够在很大程度上减少我们的开发成本,提高我们的开发效率. axios是一个在近些年来非常火的 ...
 - HtmlAgilityPack --解析Html源码
		
最近项目需要从网络上抓取一下数据解析Html源码,奈何正则表达式难写,于是网上搜索找到了“ HtmlAgilityPack”类库,敏捷开发,果然效率非同寻常. 在此做笔记,写下心得,顺便给自己总结一下 ...
 - mvc5 解析route源码实现自己的route系统
		
Asp.net mvc5 解析route源码实现自己的route系统 url route 路由系统的责任是找到匹配的路由,创建路由数据,并将请求分配给一个处理程序. 选择动作是 MVC 的处理程序 ...
 - 浩哥解析MyBatis源码(十)——Type类型模块之类型处理器
		
原创作品,可以转载,但是请标注出处地址:http://www.cnblogs.com/V1haoge/p/6715063.html 1.回顾 之前的两篇分别解析了类型别名注册器和类型处理器注册器,此二 ...
 
随机推荐
- Kali学习笔记30:身份认证与命令执行漏洞
			
文章的格式也许不是很好看,也没有什么合理的顺序 完全是想到什么写一些什么,但各个方面都涵盖到了 能耐下心看的朋友欢迎一起学习,大牛和杠精们请绕道 实验环境: Kali机器:192.168.163.13 ...
 - ubuntu 16.04下安装ADB
			
1. 安装adb工具. 从谷歌的网站下载LINUX adb调试工具(FQ),当然可以随便百度一个一大堆. http://developer.android.com/tools/device.html ...
 - [django]date类型和datetime类型过滤
			
搞清楚datetime.datetime和datetime.date模块 他们两个的格式区别 datetime模块 In [1]: from datetime import datetime In [ ...
 - 破解第二课  JMP法
			
首先,我用录屏大师自制了一个视频,给视频加上密码.任意输入,看到报错信息“密码不对,请重新输入” 第一步 反汇编窗口右键点击“中文搜索引擎”---“智能搜索”,搜索引擎界面再次搜索“不对”,结果如下: ...
 - c#使用dynamic关键字传输数据的用法
			
问: 在实际开发中,特别是在ORM框架的基础下,我们返回的数据都是强类型的实体对象.如果是单表查询我们就可以直接返回对应的实体,如果是多表联合查询,我们可能就需要各个表中都返回一部分字段,组成一个新的 ...
 - sql server 索引阐述系列二 索引存储结构
			
一.概述. "流光容易把人抛,红了樱桃,绿了芭蕉“ 转眼又年中了,感叹生命的有限,知识的无限.在后续讨论索引之前,先来了解下索引和表数据的内部结构,这一节将介绍页的存储,页分配单元类型,区的 ...
 - 【转载】“宇宙最强” IDE,Visual Studio 2019 正式发布
			
转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具.解决方案和服务,赋能开发者. 本文由葡萄城翻译并发布 今天凌晨Visual Studio 2019已经正式发布,现在已经可以下载了.使用V ...
 - Android内存优化之磁盘缓存
			
前言: 在上一篇文章中介绍了内存缓存,内存缓存的优点就是很快,但是它又有缺点: 空间小,内存缓存不可能很大: 内存紧张时可能被清除: 在应用退出时就会消失,做不到离线: 基于以上的缺点有时候又需要另外 ...
 - [java]__如何用你的编程语言表达至尊宝"爱你一万年"的浪漫情怀.
			
前言 我在很多地方,或多或少都了解到人们对程序员的看法,大多是智商高情商低,不懂的浪漫之类的,并且看到了一个十分有趣的视频,用程序来表达你对女朋友的爱,于是,便来了兴趣,我想最浪漫的承诺,应该就是大话 ...
 - ELK实践(二):收集Nginx日志
			
Nginx访问日志 这里补充下Nginx访问日志使用的说明.一般在nginx.conf主配置文件里需要定义一种格式: log_format main '$remote_addr - $remote_u ...