FMM和BMM的python代码实现

  1. FMM和BMM的编程实现,其实两个算法思路都挺简单,一个是从前取最大词长度的小分句,查找字典是否有该词,若无则分句去掉最后面一个字,再次查找,直至分句变成单词或者在字典中找到,并将其去除,然后重复上述步骤。BMM则是从后取分句,字典中不存在则分句最前去掉一个字,也是重复类似的步骤。

  2. readCorpus.py

    import sys
    output = {}
    with open('语料库.txt', mode='r', encoding='UTF-8') as f:
    for line in f.readlines():
    if line is not None:
    # 去除每行的换行符
    t_line = line.strip('\n')
    # 按空格分开每个词
    words = t_line.split(' ')
    for word in words:
    # 按/分开标记和词
    t_word = word.split('/')
    # 左方括号去除
    tf_word = t_word[0].split('[')
    if len(tf_word) == 2:
    f_word = tf_word[1]
    else:
    f_word = t_word[0]
    # 若在输出字典中,则value+1
    if f_word in output.keys():
    output[f_word] = output[f_word]+1
    # 不在输出字典中则新建
    else:
    output[f_word] = 1
    big_word1 = t_line.split('[')
    for i in range(1, len(big_word1)):
    big_word2 = big_word1[i].split(']')[0]
    words = big_word2.split(' ')
    big_word = ""
    for word in words:
    # 按/分开标记和词
    t_word = word.split('/')
    big_word = big_word + t_word[0]
    # 若在输出字典中,则value+1
    if big_word in output.keys():
    output[big_word] = output[big_word]+1
    # 不在输出字典中则新建
    else:
    output[big_word] = 1 f.close() with open('output.txt', mode='w', encoding='UTF-8') as f:
    while output:
    minNum = sys.maxsize
    minName = ""
    for key, values in output.items():
    if values < minNum:
    minNum = values
    minName = key
    f.write(minName+": "+str(minNum)+"\n")
    del output[minName]
    f.close()
  3. BMM.py

    MAX_WORD = 19
    word_list = []
    ans_word = []
    with open('output.txt', mode='r', encoding='UTF-8')as f:
    for line in f.readlines():
    if line is not None:
    word = line.split(':')
    word_list.append(word[0])
    f.close()
    #num = input("输入句子个数:")
    #for i in range(int(num)):
    while True:
    ans_word = []
    try:
    origin_sentence = input("输入:\n")
    while len(origin_sentence) != 0:
    len_word = MAX_WORD
    while len_word > 0:
    # 从后读取最大词长度的数据,若该数据在字典中,则存入数组,并将其去除
    if origin_sentence[-len_word:] in word_list:
    ans_word.append(origin_sentence[-len_word:])
    len_sentence = len(origin_sentence)
    origin_sentence = origin_sentence[0:len_sentence-len_word]
    break
    # 不在词典中,则从后取词长度-1
    else:
    len_word = len_word - 1
    # 单词直接存入数组
    if len_word == 0:
    if origin_sentence[-1:] != ' ':
    ans_word.append(origin_sentence[-1:])
    len_sentence = len(origin_sentence)
    origin_sentence = origin_sentence[0:len_sentence - 1]
    for j in range(len(ans_word)-1, -1, -1):
    print(ans_word[j] + '/', end='')
    print('\n')
    except (KeyboardInterrupt, EOFError):
    break
  4. FMM.py

    MAX_WORD = 19
    word_list = []
    with open('output.txt', mode='r', encoding='UTF-8')as f:
    for line in f.readlines():
    if line is not None:
    word = line.split(':')
    word_list.append(word[0])
    f.close()
    #num = input("输入句子个数:")
    #for i in range(int(num)):
    while True:
    try:
    origin_sentence = input("输入:\n")
    while len(origin_sentence) != 0:
    len_word = MAX_WORD
    while len_word > 0:
    # 读取前最大词长度数据,在数组中则输出,并将其去除
    if origin_sentence[0:len_word] in word_list:
    print(origin_sentence[0:len_word]+'/', end='')
    origin_sentence = origin_sentence[len_word:]
    break
    # 不在字典中,则读取长度-1
    else:
    len_word = len_word - 1
    # 为0则表示为单词,输出
    if len_word == 0:
    if origin_sentence[0] != ' ':
    print(origin_sentence[0]+'/', end='')
    origin_sentence = origin_sentence[1:]
    print('\n')
    except (KeyboardInterrupt, EOFError):
    break
  5. 效果图

  • BMM.py(不含大粒度分词)

  • BMM.py(含大粒度分词)

  • FMM.py(不含大粒度分词)

  • FMM.py(含大粒度分词)

我们可以观察到含大粒度分词的情况将香港科技大学,北京航空航天大学等表意能力强的词分在了一起而不是拆开,更符合分词要求。

FMM和BMM的python代码实现的更多相关文章

  1. 可爱的豆子——使用Beans思想让Python代码更易维护

    title: 可爱的豆子--使用Beans思想让Python代码更易维护 toc: false comments: true date: 2016-06-19 21:43:33 tags: [Pyth ...

  2. if __name__== "__main__" 的意思(作用)python代码复用

    if __name__== "__main__" 的意思(作用)python代码复用 转自:大步's Blog  http://www.dabu.info/if-__-name__ ...

  3. Python 代码风格

    1 原则 在开始讨论Python社区所采用的具体标准或是由其他人推荐的建议之前,考虑一些总体原则非常重要. 请记住可读性标准的目标是提升可读性.这些规则存在的目的就是为了帮助人读写代码,而不是相反. ...

  4. 一行python代码实现树结构

    树结构是一种抽象数据类型,在计算机科学领域有着非常广泛的应用.一颗树可以简单的表示为根, 左子树, 右子树. 而左子树和右子树又可以有自己的子树.这似乎是一种比较复杂的数据结构,那么真的能像我们在标题 ...

  5. [Dynamic Language] 用Sphinx自动生成python代码注释文档

    用Sphinx自动生成python代码注释文档 pip install -U sphinx 安装好了之后,对Python代码的文档,一般使用sphinx-apidoc来自动生成:查看帮助mac-abe ...

  6. 上传自己的Python代码到PyPI

    一.需要准备的事情 1.当然是自己的Python代码包了: 2.注册PyPI的一个账号. 二.详细介绍 1.代码包的结构: application \application __init__.py m ...

  7. 如何在batch脚本中嵌入python代码

    老板叫我帮他测一个命令在windows下消耗的时间,因为没有装windows那个啥工具包,没有timeit那个命令,于是想自己写一个,原理很简单: REM timeit.bat echo %TIME% ...

  8. ROS系统python代码测试之rostest

    ROS系统中提供了测试框架,可以实现python/c++代码的单元测试,python和C++通过不同的方式实现, 之后的两篇文档分别详细介绍各自的实现步骤,以及测试结果和覆盖率的获取. ROS系统中p ...

  9. 让计算机崩溃的python代码,求共同分析

    在现在的异常机制处理的比较完善的编码系统里面,让计算机完全崩溃无法操作的代码还是不多的.今天就无意运行到这段python代码,运行完,计算机直接崩溃,任务管理器都无法调用,任何键都用不了,只能强行电源 ...

随机推荐

  1. Redis2.8.7配置文件说明

    Redis master配置文件说明 daemonize no 默认情况下,redis不是在后台运行的,如果需要在后台运行,把该项的值更改为yes daemonize yes # 当redis在后台运 ...

  2. sqlserver 下载地址(SQL Server 2008 R2 中英文 开发版/企业版/标准版 下载)

    转自:http://blog.sina.com.cn/s/blog_624b1f950100pioh.html   注:企业版无法安装在xp和win7,开发版才可以! 一. 简体中文 1. SQL S ...

  3. SQL Server 2017 EXPRESS 安装 SQLCMD 设置远程连接

    1.配置管理器内启动TCP/IP协议(端口改为1433)以及加入防火墙允许 2.进入本地实例: cmd Microsoft Windows [版本 ] (c) Microsoft Corporatio ...

  4. 【spring Boot】1.创建第一个springBoot项目

    入手springBoot,搭建第一个springBoot项目. 看官方文档还是有点别扭. https://docs.spring.io/spring-boot/docs/current-SNAPSHO ...

  5. C#日期格式化,时间

    日期转化一 为了达到不同的显示效果有时,我们需要对时间进行转化,默认格式为:2007-01-03 14:33:34 ,要转化为其他格式,要用到DateTime.ToString的方法(String, ...

  6. Unable to list target platforms. Please make sure the android sdk path is correct. See the Console for more details.

    在android上发布遇到 androidSDK无法找到的问题 http://www.jianshu.com/p/fe4c334ee9fe

  7. 转:windows 查找pid并kill进程

    找出占用1099端口的进程,进入windows命令,查看什么进程占用了1099端口 使用命令:netstat -aon|findstr 1099 找出占用1099端口的进程,如下图所示:

  8. Scrapy的介绍和用法

    转载:https://www.toutiao.com/i6493421606306578958/ Scrapy是爬虫必须学会的一个框架!他确实很难搞的透彻!今天就不给大家全部介绍了!还是介绍其中的Cr ...

  9. Python 实现指定目录下 删除指定大小的文件

    import os, sys from stat import * BIG_FILE_THRESHOLD = 6000L #1000000L dict1 = {} # dict2 = {} # def ...

  10. PHP结巴程序实现

    <?php $str="我...我要要要...学学学..编编程"; $str=preg_replace('/\./','',$str);//我我要要要学学学编编程 $str= ...