FMM和BMM的python代码实现

  1. FMM和BMM的编程实现,其实两个算法思路都挺简单,一个是从前取最大词长度的小分句,查找字典是否有该词,若无则分句去掉最后面一个字,再次查找,直至分句变成单词或者在字典中找到,并将其去除,然后重复上述步骤。BMM则是从后取分句,字典中不存在则分句最前去掉一个字,也是重复类似的步骤。

  2. readCorpus.py

    import sys
    output = {}
    with open('语料库.txt', mode='r', encoding='UTF-8') as f:
    for line in f.readlines():
    if line is not None:
    # 去除每行的换行符
    t_line = line.strip('\n')
    # 按空格分开每个词
    words = t_line.split(' ')
    for word in words:
    # 按/分开标记和词
    t_word = word.split('/')
    # 左方括号去除
    tf_word = t_word[0].split('[')
    if len(tf_word) == 2:
    f_word = tf_word[1]
    else:
    f_word = t_word[0]
    # 若在输出字典中,则value+1
    if f_word in output.keys():
    output[f_word] = output[f_word]+1
    # 不在输出字典中则新建
    else:
    output[f_word] = 1
    big_word1 = t_line.split('[')
    for i in range(1, len(big_word1)):
    big_word2 = big_word1[i].split(']')[0]
    words = big_word2.split(' ')
    big_word = ""
    for word in words:
    # 按/分开标记和词
    t_word = word.split('/')
    big_word = big_word + t_word[0]
    # 若在输出字典中,则value+1
    if big_word in output.keys():
    output[big_word] = output[big_word]+1
    # 不在输出字典中则新建
    else:
    output[big_word] = 1 f.close() with open('output.txt', mode='w', encoding='UTF-8') as f:
    while output:
    minNum = sys.maxsize
    minName = ""
    for key, values in output.items():
    if values < minNum:
    minNum = values
    minName = key
    f.write(minName+": "+str(minNum)+"\n")
    del output[minName]
    f.close()
  3. BMM.py

    MAX_WORD = 19
    word_list = []
    ans_word = []
    with open('output.txt', mode='r', encoding='UTF-8')as f:
    for line in f.readlines():
    if line is not None:
    word = line.split(':')
    word_list.append(word[0])
    f.close()
    #num = input("输入句子个数:")
    #for i in range(int(num)):
    while True:
    ans_word = []
    try:
    origin_sentence = input("输入:\n")
    while len(origin_sentence) != 0:
    len_word = MAX_WORD
    while len_word > 0:
    # 从后读取最大词长度的数据,若该数据在字典中,则存入数组,并将其去除
    if origin_sentence[-len_word:] in word_list:
    ans_word.append(origin_sentence[-len_word:])
    len_sentence = len(origin_sentence)
    origin_sentence = origin_sentence[0:len_sentence-len_word]
    break
    # 不在词典中,则从后取词长度-1
    else:
    len_word = len_word - 1
    # 单词直接存入数组
    if len_word == 0:
    if origin_sentence[-1:] != ' ':
    ans_word.append(origin_sentence[-1:])
    len_sentence = len(origin_sentence)
    origin_sentence = origin_sentence[0:len_sentence - 1]
    for j in range(len(ans_word)-1, -1, -1):
    print(ans_word[j] + '/', end='')
    print('\n')
    except (KeyboardInterrupt, EOFError):
    break
  4. FMM.py

    MAX_WORD = 19
    word_list = []
    with open('output.txt', mode='r', encoding='UTF-8')as f:
    for line in f.readlines():
    if line is not None:
    word = line.split(':')
    word_list.append(word[0])
    f.close()
    #num = input("输入句子个数:")
    #for i in range(int(num)):
    while True:
    try:
    origin_sentence = input("输入:\n")
    while len(origin_sentence) != 0:
    len_word = MAX_WORD
    while len_word > 0:
    # 读取前最大词长度数据,在数组中则输出,并将其去除
    if origin_sentence[0:len_word] in word_list:
    print(origin_sentence[0:len_word]+'/', end='')
    origin_sentence = origin_sentence[len_word:]
    break
    # 不在字典中,则读取长度-1
    else:
    len_word = len_word - 1
    # 为0则表示为单词,输出
    if len_word == 0:
    if origin_sentence[0] != ' ':
    print(origin_sentence[0]+'/', end='')
    origin_sentence = origin_sentence[1:]
    print('\n')
    except (KeyboardInterrupt, EOFError):
    break
  5. 效果图

  • BMM.py(不含大粒度分词)

  • BMM.py(含大粒度分词)

  • FMM.py(不含大粒度分词)

  • FMM.py(含大粒度分词)

我们可以观察到含大粒度分词的情况将香港科技大学,北京航空航天大学等表意能力强的词分在了一起而不是拆开,更符合分词要求。

FMM和BMM的python代码实现的更多相关文章

  1. 可爱的豆子——使用Beans思想让Python代码更易维护

    title: 可爱的豆子--使用Beans思想让Python代码更易维护 toc: false comments: true date: 2016-06-19 21:43:33 tags: [Pyth ...

  2. if __name__== "__main__" 的意思(作用)python代码复用

    if __name__== "__main__" 的意思(作用)python代码复用 转自:大步's Blog  http://www.dabu.info/if-__-name__ ...

  3. Python 代码风格

    1 原则 在开始讨论Python社区所采用的具体标准或是由其他人推荐的建议之前,考虑一些总体原则非常重要. 请记住可读性标准的目标是提升可读性.这些规则存在的目的就是为了帮助人读写代码,而不是相反. ...

  4. 一行python代码实现树结构

    树结构是一种抽象数据类型,在计算机科学领域有着非常广泛的应用.一颗树可以简单的表示为根, 左子树, 右子树. 而左子树和右子树又可以有自己的子树.这似乎是一种比较复杂的数据结构,那么真的能像我们在标题 ...

  5. [Dynamic Language] 用Sphinx自动生成python代码注释文档

    用Sphinx自动生成python代码注释文档 pip install -U sphinx 安装好了之后,对Python代码的文档,一般使用sphinx-apidoc来自动生成:查看帮助mac-abe ...

  6. 上传自己的Python代码到PyPI

    一.需要准备的事情 1.当然是自己的Python代码包了: 2.注册PyPI的一个账号. 二.详细介绍 1.代码包的结构: application \application __init__.py m ...

  7. 如何在batch脚本中嵌入python代码

    老板叫我帮他测一个命令在windows下消耗的时间,因为没有装windows那个啥工具包,没有timeit那个命令,于是想自己写一个,原理很简单: REM timeit.bat echo %TIME% ...

  8. ROS系统python代码测试之rostest

    ROS系统中提供了测试框架,可以实现python/c++代码的单元测试,python和C++通过不同的方式实现, 之后的两篇文档分别详细介绍各自的实现步骤,以及测试结果和覆盖率的获取. ROS系统中p ...

  9. 让计算机崩溃的python代码,求共同分析

    在现在的异常机制处理的比较完善的编码系统里面,让计算机完全崩溃无法操作的代码还是不多的.今天就无意运行到这段python代码,运行完,计算机直接崩溃,任务管理器都无法调用,任何键都用不了,只能强行电源 ...

随机推荐

  1. linux之ls指令的关键字过滤显示

    假设~/admin的文件夹下面有几个文件: a.pm b.pm c.pl d.pl e.pml 想只显示.pm结尾的可以用: ls *.pm 或者 ls | grep .pm,两者等价. 想显示b.开 ...

  2. 命令行下的“蒙面歌王”rundll32.exe

    在Windows系统中,为了节省内存和实现代码重用,微软在Windows操作系统中实现了一种共享函数库的方式.这就是DLL(Dynamic Link Library)文件,即动态链接库,这种库包含了可 ...

  3. python常见的编程错误

    常见的编程错误 2.1 试图访问一个未赋值的变量,会产生运行时错误. 2.2 ==,!=, >=和<=这几个运算符的两个符号之间出现空格,会造成语法错误. 2.3 !=,<>, ...

  4. selenium执行报错:Process refused to die after 10 seconds, and couldn't taskkill it

    十二月 02, 2015 5:16:56 下午 org.openqa.selenium.os.ProcessUtils killWinProcess 警告: Process refused to di ...

  5. 转:Eclipse常见问题,快捷键收集

    Eclipse的编辑功能非常强大,掌握了Eclipse快捷键功能,能够大大提高开发效率.Eclipse中有如下一些和编辑相关的快捷键. 1.[ALT+/] Sysout+ System.out.pri ...

  6. Java 实现模板方法(TemplateMethod)模式

    类图 /** * 业务流程模板.提供基本框架 * @author stone * */ public abstract class BaseTemplate { public abstract voi ...

  7. Activity启动活动最佳写法

    一,在被启动的Activity中新加一个静态方法public static void actionStart(Context context, String data1, String data2) ...

  8. 偶遇 smon 进程cpu 开销高异常分析

    今天突然发现线上一台oracle 数据库 servercpu 跑的非常高.感觉不是非常正常,细致看了下.发现是smon 进程吃掉了一个cpu. 那么这个smon 进程究竟在倒腾啥玩意 对smon 进程 ...

  9. C. Glass Carving (CF Round #296 (Div. 2) STL--set的运用 &amp;&amp; 并查集方法)

    C. Glass Carving time limit per test 2 seconds memory limit per test 256 megabytes input standard in ...

  10. Oracle 为表空间增加数据文件

    dba权限检查下 select tablespace_name, file_id, file_name, ),) total_space from dba_data_files order by ta ...