Java编写的C语言词法分析器
这是java编写的C语言词法分析器,我也是参考很多代码,然后核心代码整理起来,放在QQ空间和博客上,目的是互相学习借鉴,希望可以得到高手改进。这个词法分析器实现的功能有打开文件、保存文件、打开帮助文档、文本域内容的剪切和复制和黏贴、进行词法分析
程序的项目结构如图,Word类和Unidentifiable类是两个JavaBean类,存放的参数有两个row(整型)、word(String),row用于获取行数,word用于获取标识符,LexerFrame是词法分析器的界面类,Analyze封装了进行词法分析的核心代码 ,doc文件夹放一个帮助文档,当用户点击帮助按钮时可以弹出来以帮助用户使用。
//核心程序:
package com.lexer;
*1~20号为关键字,用下标表示,i+1就是其机器码;21~40号为操作符,用下标表示,i+21就是其机器码;41~60号为分界符,
* 用下标表示,i+41就是其机器码;用户自定义的标识符,其机器码为51;常数的机器码为52;不可以识别的标识符,其机器码为0
*/
public class Analyze {
private String keyword[]={"int","long","char","if","else","for","while","return","break","continue",
"switch","case","default","float","double","void","struct","static","do","short"};
//运算符
private String operator[]={"+","-","*","/","%","=",">","<","!","==","!=",">=","<=","++","--","&","&&","||","[","]"};
//分界符
private String delimiter[]={",",";","(",")","{","}","\'","\"",":","#"};
public Analyze() {
}
/**
* 判断是否是数字
*/
public boolean isDigit(char ch){
if(ch>='0'&&ch<='9'){
return true;
}else{
return false;
}
}
/**
* 判断是否是字母的函数
*/
public boolean isLetter(char ch){
if((ch>='a'&&ch<='z')||(ch>='A'&&ch<='Z')){
return true;
}else{
return false;
}
}
/**
* 判断是否由两个运算符组成
*/
public boolean isTwoOperator(String str,char ch){
char lc;
int flag=0;
if(str.length()>1||str.length()==0){//字符数大于2和无字符的情况
return false;
}else{//字符数等于2的情况
lc=str.charAt(str.length()-1);
if(ch=='='&&(lc=='>'||lc=='<'||lc=='='||lc=='!')){
}else if(ch=='+'&&lc=='+'){
}else if(ch=='-'&&lc=='-'){
}else if(ch=='|'&&lc=='|'){
}else if(ch=='&'&&lc=='&'){
}else{
return false;//否就返回false
}
return true;//其它符号的情况都返回true
}
}
/**
* 获取关键字的机器码
*/
public int getKeywordOpcodes(String str){
int i;
for(i=0;i<keyword.length;i++){
if(str.equals(keyword[i]))
break;
}
if(i<keyword.length){
return i+1;//返回关键字的机器码
}else{
return 0;
}
}
/**
* 获取操作符的机器码
*/
public int getOperatorOpcodes(String str){
int i;
for(i=0;i<operator.length;i++){
if(str.equals(operator[i]))
break;
}
if(i<operator.length)
return i+21;//返回操作符的机器码
else
return 0;
}
/**
* 获取分界符的机器码
*/
public int getDelimiterOpcodes(String str){
int i;
for(i=0;i<delimiter.length;i++){
if(str.equals(delimiter[i]))
break;
}
if(i<delimiter.length)
return i+41;//返回分界符的机器码
else
return 0;
}
/**
* 判断字符是否可以识别
*/
public boolean isIdent(String str){
char ch;
int i;
for(i=0;i<str.length();i++){
ch=str.charAt(i);
//非数字串的情况和非由英文字母组成的字符串
if((i==0&&!isLetter(ch))||(!isDigit(ch)&&!isLetter(ch))){
break;
}
}
if(i<str.length()){
return false;
}else{
return true;
}
}
/**
*
* 预处理函数
*/
public String preFunction(String str){
String ts="";
int i;
char ch,nc;
//这里的i<str.length()-1
for(i=0;i<str.length()-1;i++){
ch=str.charAt(i);
nc=str.charAt(i+1);
if(ch=='\n'){//如果字符是换行符,将\n换成$
ch='$';
ts=ts+ch;
}else if(ch==' '||ch=='\r'||ch=='\t'){
if(nc==' '||nc=='\r'||ch=='\t'){
continue;//连续' '或者'\t'或者'\r'的情况,直接跳过
}else{
ch=' ';//一个' '或者'\t'或者'\r'的情况,将这些字符换成' '
ts=ts+ch;
}
}else{
ts=ts+ch;//将字符连起来
}
}
ch=str.charAt(str.length()-1);
if(ch!=' '&&ch!='\r'&&ch!='\t'&&ch!='\n'){
ts=ts+ch;
}
return ts;
}
/**
* 将字符串分成一个个单词,存放在数组列表
*/
public ArrayList<Word> divide(String str){
ArrayList<Word> list=new ArrayList<Word>();
String s="";
char ch;
int i;
int row=1;
for(i=0;i<str.length();i++){
ch=str.charAt(i);
if(i==0&&ch==' ')//字符串的第一个字符
continue;
if(ch==' '){//' '或者'\t'或者'\r'的情况
if(s!=""){
list.add(new Word(row, s));
s="";//置空
}else{
continue;
}
}else if(isDigit(ch)||isLetter(ch)){
if(s==""||isDigit(s.charAt(s.length()-1))||isLetter(s.charAt(s.length()-1))){
s = s + ch;
}else{
list.add(new Word(row, s));
s = "";
s=s + ch;
}
}else{
if(isTwoOperator(s, ch)){//两个运算符的情况
s = s + ch;
}else{
if(s==""&&ch!='$'){
s = s + ch;
}else if(s==""&&ch=='$'){//若检测到$符号,就换行
row++;//行数加一
}else{
list.add(new Word(row, s));
s = "";
if(ch!='$'){
s=s + ch;
}else{
row++;
}
}
}
}
}
if(s!=""){
list.add(new Word(row, s));
}
return list;
}
/**
* 判断字符串是数字串,单个字符,还是一个字符串
*/
public int check(String str){
char ch;
ch=str.charAt(0);
if(ch>='0'&&ch<='9'){
return 1;//数字串
}
if(str.length()==1)
return 2;//单个字符
else
return 3;//一个字符串
}
/**
*
* 检查字符串是否为数字串,返回其机器码
*/
public int checkDigit(String str){
int i;
char ch;
for(i=0;i<str.length();i++){
ch=str.charAt(i);
if(ch>'9'||ch<'0')
break;
}
if(i<str.length()){
return 0;//不可识别的情况
}else{
return 52;//常数
}
}
/**
*
* 检查字符串是否为单个字符,返回其机器码
*/
public int checkChar(String str){
if(getOperatorOpcodes(str)!=0){//操作符
return getOperatorOpcodes(str);
}else if(getDelimiterOpcodes(str)!=0){//分界符
return getDelimiterOpcodes(str);
}else if(isIdent(str)){
return 51;//用户自定义标识符的机器码
}else{
return 0;//不可以被识别的标识符,机器码为0
}
}
/**
*
* 检查字符串是否为字符串,返回其机器码
*/
public int checkString(String str){
if(getOperatorOpcodes(str)!=0){//操作符
return getOperatorOpcodes(str);
}else if(getKeywordOpcodes(str)!=0){//关键字
return getKeywordOpcodes(str);
}else if(isIdent(str)){
return 51;//用户自定义标识符的机器码
}else{
return 0;//不可以被识别的标识符,机器码为0
}
}
}
//********************************************************************************************************************
在界面类写这个方法来调用方法
/**
* 词法分析
*/
public void doTokenizing(){
consoleTextArea.setText(null);
ArrayList<Word> wlist=new ArrayList<Word>();
ArrayList<Unidentifiable> ulist=new ArrayList<Unidentifiable>();
String s,ts,str;
Word word;
int i;
int opcodes=-1;
int errorNum=0;
int count=0;
s=fileContentTextArea.getText();
if(s.length()>1){
ts=analyze.preFunction(s);
wlist=analyze.divide(ts);
values=new String[wlist.size()][3];
while(wlist.size()>0){
word=(Word)wlist.remove(0);
str=word.getWord();
i=analyze.check(str);
switch (i) {
case 1:
opcodes=analyze.checkDigit(str);
break;
case 2:
opcodes=analyze.checkChar(str);
break;
case 3:
opcodes=analyze.checkString(str);
break;
}
if(opcodes==0){
Unidentifiable u=new Unidentifiable(word.getRow(), str);
ulist.add(u);
errorNum++;
}
values[count][0]=String.valueOf(word.getRow());
values[count][1]=str;
values[count][2]=String.valueOf(opcodes);
count++;
}
//更新表格内容
DefaultTableModel model=(DefaultTableModel)table.getModel();
while(model.getRowCount()>0){
model.removeRow(model.getRowCount()-1);
}
model.setDataVector(values,title);
table=new JTable(model);
consoleTextArea.append("共有"+errorNum+"处错误!"+"\n");
while (ulist.size()>0) {
int r;
String string;
Unidentifiable uni=ulist.remove(0);
r=uni.getRow();
string=uni.getWord();
consoleTextArea.append("第"+r+"行:"+"错误,"+string+"\n");
}
}else{
int j;
j=JOptionPane.showConfirmDialog(this, "请输入程序!");
if(j!=JOptionPane.YES_OPTION){
return;
}
}
}

Java编写的C语言词法分析器的更多相关文章
- java编写词法分析器
词法分析器就是通过扫描一段程序判断是否是关键字.标识符.常数.分界符.运算符.一般分为一符一种和经典五中: 这里我用的是经典五中,此词法分析器是用java编写的: /* 保留字|关键字:1 操作符|运 ...
- 深入理解Java 8 Lambda(语言篇——lambda,方法引用,目标类型和默认方法)
作者:Lucida 微博:@peng_gong 豆瓣:@figure9 原文链接:http://zh.lucida.me/blog/java-8-lambdas-insideout-language- ...
- java安全沙箱(三)之内置于Java虚拟机(及语言)的安全特性
java是一种类型安全的语言,它有四类称为安全沙箱机制的安全机制来保证语言的安全性,这四类安全沙箱分别是: 类加载体系 .class文件检验器 内置于Java虚拟机(及语言)的安全特性 安全管理器及J ...
- 网页动物园2.0发布,经过几个月的努力,采用JAVA编写!
网页动物园2.0发布,经过几个月的努力,采用JAVA编写! 网页动物园2.0 正式发布!游戏发布 游戏名称: 网页动物园插件 游戏来源: 原创插件 适用版本: Discuz! X1.5 - X3.5 ...
- [转]深入理解Java 8 Lambda(语言篇——lambda,方法引用,目标类型和默认方法)
以下内容转自: 作者:Lucida 微博:@peng_gong 豆瓣:@figure9 原文链接:http://zh.lucida.me/blog/java-8-lambdas-insideout-l ...
- Java的native关键字---JAVA下调用其他语言的关键词
今天研究Java基础类库,Object类的时候,发现了一个关键字:native 咦?这是个什么东东?它认识我,我可不认识它! 嘿嘿,没关系,baidu一下. java native关键字 一. 什么是 ...
- 实战WEB 服务器(JAVA编写WEB服务器)
实战WEB 服务器(JAVA编写WEB服务器) 标签: web服务服务器javawebsockethttp服务器 2010-04-21 17:09 11631人阅读 评论(24) 收藏 举报 分类: ...
- Java学习笔记--脚本语言支持API
Java语言的动态性之脚本语言支持API 随着Java平台的流行,很多的脚本语言(scripting language)都可以运行在Java虚拟机啊上,其中比较流行的有JavaScript.JRuby ...
- Java编写高质量代码改善程序的151个建议
第一章 Java开发中通用的方法和准则 建议1:不要在常量和变量中出现易混淆的字母: (i.l.1:o.0等). 建议2:莫让常量蜕变成变量: (代码运行工程中不要改变常量值). 建议3:三元操作符 ...
随机推荐
- Pascal <-> C/C++ 转换简明教程
在OI的学习中,阅读多种语言的能力是很重要的. 本文就着眼于让大家最快地掌握这两种语言间的转换方法. 程序主结构 C/C++ Pascal 主程序(即开始执行的程序段)和其他函数.过程本质上都属于函数 ...
- 尝试获取TextBox_TextChanged事件订阅列表过程
项目中有用到动态事件绑定[多种事件],由于可触发多次绑定,所以想获取订阅列表来判断是否已绑定事件,从而避免问题! 查找相关资料得知Delegate的GetInvocationList方法可以获取委托的 ...
- IE-二级网页打不开
无法打开二级链接的处理方法是重新注册如下的DLL文件: 在开始—运行里输入: regsvr32 Shdocvw.dll regsvr32 Shell32.dll(注意这个命令,先不用输) regsvr ...
- weapon制作武器
weapon制作武器 (weapon.pas/c/cpp) 解题报告 制作武器weapon.pas/c/cpp) 背景 WZland的紧急避难所很快就建好了,WZland的居民们陆续地来到这个紧急避难 ...
- PHP扩展开发01:第一个扩展【转】
我们先假设业务场景,是需要有这么一个扩展,提供一个叫ccvita_string的函数,他的主要作用是返回一段字符.(这个业务场景实在太假,大家就这么看看吧)对应的PHP代码可能是这样: functio ...
- iOS开发技巧(系列十八:扩展UIColor,支持十六进制颜色设置)
新建一个Category,命名为UIColor+Hex,表示UIColor支持十六进制Hex颜色设置. UIColor+Hex.h文件, #import <UIKit/UIKit.h> # ...
- 常用加密算法的Java实现总结(二) ——对称加密算法DES、3DES和AES
1.对称加密算法 1.1 定义 对称加密算法是应用较早的加密算法,技术成熟.在对称加密算法中,数据发信方将明文(原始数据)和加密密钥(mi yue)一起经过特殊加密算法处理后,使其变成复杂的加密密文发 ...
- VS C# 快捷键
解决VS2010中工具箱的的不见的问题:按快捷键Ctrl+Alt+X 全屏:Shift+Alt+Enter注释选定内容:Ctrl+E+C/Crtr+E+U代码格式化:ctrl+E+F ======== ...
- 69 Spring Interview Questions and Answers – The ULTIMATE List--reference
This is a summary of some of the most important questions concerning the Spring Framework, that you ...
- MySQL【第二篇】基本命令
一.连接MySQL 登录 mysql 有两种方式: 远程主机:mysql -h主机地址 -u用户名 -p密码 -P端口号 本机:mysql -h主机地址 -u用户名 -p密码 -P端口号 如果端口号是 ...