对step文件进行信息抽取算法

任务描述：给定一个step文件，对该文件的字符串进行信息抽取，结构化的组织文件描述模型的数据。形成抽象化数据结构，存入计算机数据库。并能按照有条理结构把这些数据展示出来。

信息抽取的结果描述：

　　1 数据结构：

　　　　以key-value键值对形式将step文件描述的信息抽取并组织起来。

　　　　具体的，在java当中使用javabean技术，以类的嵌套的方式实现这种数据结构。

　　2 结果展示：

　　　　将javabean转换成json并格式化打印出来，查看转化结果是否正确。

　　3 存储：

　　　　将javabean的实例化对象映射为mysql中的数据库表。

信息抽取的方法描述：团队商讨，编写一套算法来实现对step文件的抽取。

　　step文件信息抽取算法（伪代码流程）：

　　输入： step文件

　　输出：键值对数据结构(字典、或hashtable、或hashmap、或javabean对象) 和 json格式打印输出

　　1 读取step文件，整个文件存为字符串s

　　2 删除s的开头的 "ISO-10303-21\n" 和最后的 "END-ISO-10303-21\n"

　　3 搜索s，将 “HEADER\n“ 和在此之后第一个“ENDSEC\n“ 中间的部分，存为字符串header

　　4 搜索s，将 "DATA\n" 和在此之后第一个"ENDSEC\n"中间的部分，存为字符串data

5 声明一个key-value类型变量step_root，用于存储整个模型信息

　　　　（下面开始处理header部分）

　　6 声明一个key-value类型变量header_root，用于存储header部分的结构化信息

　　7 将header字符串按照行 \n进行切分 header.split("\n") ，将所有行存为一个数组（ArrayList） header_list，每个元素是一行

　　8 for line in header_list: （对header中的每一行字符串line，做如下操作）

　　9 　　对字符串line，搜索第一个左括号(, 将第一个左括号( 左侧的英文串作为key，

　　10 　包含该左括号一直到最右侧分号之前的右括号）为止的字符串作为value

　　11　　将key value 添加到header_root中

　　12 将"header"作为key， header_root作为value，添加到step_root中

　　　　(下面是对data部分处理)

　　13 声明一个key-value类型变量data_root 用于存储data部分的结构化数据

　　14 将data按照一行\n进行切分 data.split("\n"), 并存入一个数组(ArrayList) data_list, 每个元素是一行

　　15 声明一个key-value类型变量 data_lines 用于映射实体每一行的编号(实体表示) 和对应属性

　　16 for line in data_list: （对于data中的每一行做如下操作：）

　　17 　　对line按照 = 进行切分，左侧 #数字作为key，右侧去掉; 作为value

　　18　　将key value 添加到data_lines 当中

　　19 while data_lines 不为空：

　　20 　　从data_lines中取出最先添加进来的键值对num-line，并在data_lines中删除这个键值对

　　21　　对line部分搜索第一个左括号(，第一个左括号左侧部分的英文串作为key

　　22 　第一个左括号和最后一个右括号之间的字符串存为临时字符串tmp

　　23 声明一个可变类型数组list作为value，稍后将值加入list

　　24　　对tmp按照逗号,进行切分 tmp.split(",") 并把每一项存入list中

　　25　　 for cur in list: (拿出list的每一项cur进行检查：)

　　26　　　　　如果cur是能匹配成 #数字的规则:

　　27　　　　　　　调用子算法 构造子实体 算法, 将cur和data_lines传入，拿到返回值res，

　　28　　　　　　　将list中的cur位置替换为res

　　29　　将key，value加入到data_root中

　　30 将"data"作为key， data_root作为value，添加到step_root中

　　31 将step_root转换json字符串step_json

　　32 返回step_root 并打印输出step_json

子算法： 构造子实体 算法（伪代码流程）：

输入：字符串cur， key-value类型 data_lines

输出： key-value类型 res

　　1 声明一个key-value类型变量res

　　2 在data_lines中用cur当作键来查找得到值tmp

　　3 从data_lines中删除这对键值对cur-tmp

　　4 对tmp搜索第一个出现左括号的位置，将第一个左括号左侧的英文串当做key

　　5 对tmp第一个左括号和最后一个右括号之间的字符串存为line

　　6 声明一个可变类型列表ArrayList变量list作为value，稍后加入元素

　　7 对line按照逗号,切分 line.split(",") 并把每一项加入list中

　　8 for s in list: 对list中的每一项做检查:

　　9 　　如果 s 能匹配 #数字这种规则:

　　10 　　　　调用构造子实体算法，传入s和data_lines，拿到返回值res_tmp

　　11 　　　　将list中s对应的位置替换成res_tmp

　　12 将key，value添加到res当中

　　13 返回res

附上一段python实现的demo

 def get_info(start, lines):

     res = {}

     tmp = lines[start]

     lines.pop(start)

     cut_position = tmp.find("(")

     k, v = tmp[:cut_position], tmp[cut_position+1:-2].split(",")

     for i, vv in enumerate(v):

         v[i] = vv.strip()

         if v[i].startswith("#"):

             v[i] = get_info(v[i], lines)

     res[k] = v

     return res

 if __name__ == '__main__':

     s = """

 #1 = aa('',12,45,#2);

 #2 = bb('',55, #3,33);

 #3 = cc('', 234,jjj);

 """

     lines = {}  # 存放 #num 和右侧的映射关系

     s = s.strip().split("\n")

     for tmp in s:

         tmp = tmp.split("=")

         k = tmp[0].strip()

         v = tmp[1].strip()

         lines[k] = v

     res = get_info("#1", lines)

     print(res)

运行结果：

{'aa': ["''", '12', '45', {'bb': ["''", '55', {'cc': ["''", '234', 'jjj']}, '33']}]}

对step文件进行信息抽取算法的更多相关文章

trie树信息抽取之中文数字抽取
这一章讲一下利用trie树对中文数字抽取的算法.trie树是一个非常有用的数据结构,可以应用于大部分文本信息抽取/转换之中,后续会开一个系列,对我在实践中摸索出来的各种抽取算法讲开来.比如中文时间抽取 ...
【开源】C#信息抽取系统【招募C#队友】
FDDC2018金融算法挑战赛02-A股上市公司公告信息抽取更新时间 2018年7月11日 By 带着兔子去旅行信息抽取是NLP里的一个实用内容.该工具的目标是打造一个泛用的自动信息抽取工具.使得 ...
[APUE]系统数据文件与信息
一.口令文件 UNIX口令文件包含下表中的各个字段,这些字段包含在由于历史原因,口令文件是/bin/passwd,而且是一个文本文件,每一行都包括了上表中的七个字段,字段之间用":&quo ...
(四) 一起学 Unix 环境高级编程(APUE) 之系统数据文件和信息
. . . . . 目录 (一) 一起学 Unix 环境高级编程 (APUE) 之标准IO (二) 一起学 Unix 环境高级编程 (APUE) 之文件 IO (三) 一起学 Unix 环境高级编 ...
ACL2016信息抽取与知识图谱相关论文掠影
实体关系推理与知识图谱补全 Unsupervised Person Slot Filling based on Graph Mining 作者:Dian Yu, Heng Ji 机构:Computer ...
百科知识 STEP文件如何打开
使用任何的主流三维设计软件Pro/E.UG.CATIA.Solidworks等等都可以直接打开. STEP文件是通用格式,但是在打开的时候不同软件会生成不同的文件,下面是Solidworks打开的效果 ...
MP3文件ID3信息编辑器代码开源 - 开源研究系列文章
上次把磁性窗体的源码开源了,这次就开源另一个程序源码:MP3文件ID3信息编辑器.这个源码也比较简单,关键在于获取和写入MP3文件的这个ID3的信息即可. 这个操作信息编辑的就封装在MP3ID3.ba ...
Tomcat下conf下server.xml的文件配置信息
Tomcat下conf下server.xml的文件配置信息,基本上不用做任何修改就可以使用,修改的地方就是host区域的一些配置,此文件设置端口为80. 注意:Tomcat配置文件中(即server. ...
Android根据文件路径使用File类获取文件相关信息
Android通过文件路径如何得到文件相关信息,如文件名称,文件大小,创建时间,文件的相对路径,文件的绝对路径等: 如图: 代码: public class MainActivity extends ...

随机推荐

Beta冲刺第1次
二.Scrum部分 1. 各成员情况张祥学号:201731062624 今日进展完善了人脸识别页面效果存在问题无明日安排视后勤组和web后端情况而定截图陈远杨学号:20173106 ...
Dapper use Table Value Parameter in C# (Sql Server 数组参数)
Dapper 也可以使用数组参数参考:Blog on Github Dapper 调用存储过程 :单个参数 static void Main(string[] args) { var connec ...
django最小程序开发流程
1.建立工程在工程目录下打开cmd,输入以下命令.其中mysite是项目名称. django-admin startproject mysite 命令运行完后,在该目录下会出现一个名为mysite的 ...
phpstorm通过FileWatchers配置自动格式化代码插件
在自动格式代码的插件中, prettier一直是挺不错的, 这个插件在不同的IDE里有不同的配置地方, 但是配置参数基本上是差不多的. 下面就说明下在phpstorm(版本2019.2)中如何配置的吧 ...
Spring Cloud 之 Hystrix 知识点：隔离、熔断、降级
Hystrix 是隔离.熔断以及降级的一个框架. Hystrix 的隔离: Hystrix 会搞很多个小小的线程池,比如订单服务请求库存服务是一个线程池,请求仓储服务是一个线程池,请求积分服务是一个线 ...
25、typing导入Python的数据类型模块、collections集合模块
一.typing模块 1.typing模块的作用类型检查,防止运行时出现参数和返回值类型不符合. 作为开发文档附加说明,方便使用者调用时传入和返回参数类型. 该模块加入后并不会影响程序的运行,不会报 ...
How do I fix "selector not recognized" runtime exceptions when trying to use category methods from a static library?
https://developer.apple.com/library/content/qa/qa1490/_index.html A: If you're seeing a "select ...
实现：python3_解析shodan_json数据
前言:今天,一美元可以开通shodan,急忙去买了一个哈哈!! 下载json格式的数据,可以通过该脚本进行解析,得到相应的ip:port的格式示例代码: # coding=utf-8 import ...
基于数组的栈（Java）
package com.rao.linkList; /** * @author Srao * @className ArrayStack * @date 2019/12/3 13:41 * @pack ...
【C/C++】static关键字
首先static的最主要功能是隐藏,其次因为static变量存放在静态存储区,所以它具备持久性和默认值0. static性质隐藏当同时编译多个文件时,未加static前缀的全局变量和函数都具有全局 ...

对step文件进行信息抽取算法

对step文件进行信息抽取算法的更多相关文章

随机推荐

热门专题