基于JAVA实现的基于DFA的词法分析程序

Tempted

发布日期: 2018-11-19 18:54:41 浏览量: 1715
评分:
star star star star star star star star star_border star_border
*转载请注明来自write-bug.com

1 实验目的

根据自己确定的正规表达式,编写、调试一个词法分析程序,对语句进行词法分析,从而更好理解词法分析原理。

2 内容描述

此程序用java编写。程序读取一个文本文件,并对其中的内容进行词法分析,此程序实现了对java程序简单的词法识别,可识别一部分保留字、标识符、操作符,一部分标点符号,同时可以识别行注释(形如//)和块状注释(形如/**/)。最终将识别的token写入指定文件名的文件,输出格式为{“type=”,”code=”,”error=”},对不符合可识别格式的字符进行错误处理。

3 思路方法

  • 针对要识别的单词符号写出正则表达式

  • 构造出每个正则表达式对应的NFA

  • 合并所有NFA,并化简为DFA

  • 基于DFA编写代码

  • 代码思路参考核心算法部分

4 假设

  • AR1:保留字的优先级高于标识符

  • AR2:输入的文件是正常的简单的java程序

  • AR2:输入的java程序有大小限制,代码行数限制约20行及以内。

5 DFA描述

5.1 RE

  • 定义 a -> [a-zA-Z], d->[0-9], c为其他字符, ^*表示除*以为的字符,^/同理

  • 标识符/保留字:(a)(a|d)*

  • 数字: ((-)(d)*(.)( d)*)|( d)*|(-)( d)*|( (d)*(.)( d)*)

  • 块注释(*表示为#): /# ( (^#^/)*|(#(^/)*)*|((^#)*/)* )* #/

  • 行注释://(a|b|c)*(\n)

其他符号的较为简单,这里不再一一列出。

5.2 DFA

6 数据结构定义

6.1 类Token

其中type有Number(数字), Note(行注释), ID,BlockNote(块注释), ReservedWord(保留字), Operater(操作符), Punctuation(标点), Other(其他)。

6.2 类Word

记录每次扫描的字符组成的单词。

6.3 类Analyser

扫描算法的主要执行类。

7 算法描述

程序主要的方法有:

  • readCode ()—-从java中读取字符流,并存入codes数组中

  • analyse(int state, Word word, int index)—-扫描codes数组,以DFA为标准循环提取其中的保留字、标识符、操作符、标点符号,并存入token列表。方法采取循环,state为当前在DFA中的状态,word为识别到一半的单词,index为codes数组的读指针。根据DFA中的状态流向决定程序每次循环下一次的走向

  • saveResult()—-将扫描获得的token序列写入文本文件

8 运行截图

输入文件内容如下:

输出文件内容如下:

9 问题与解决

  • 关于块状注释的识别,遇到*需要确定后一个字符是否/,后一个字符对其判断有影响,目前只能预读取后一个字符进行判断,赞未找到更好的方法

  • 扫描一开始采用递归,在文件字符过长时,会出现stackoverflow的错误。随后将递归改为了while循环,解决了问题

上传的附件 cloud_download 基于DFA的词法分析程序.7z ( 1.00mb, 63次下载 )
error_outline 下载需要11点积分

发送私信

永远别说永远,凡事都有可能

8
文章数
14
评论数
最近文章
eject