【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）

作业任务：

使用98年人民日报语料库进行中文分词训练及测试。

作业输入：

98年人民日报语料库（1998-01-105-带音.txt），用80%的数据作为训练集，20%的数据作为验证集。

运行环境：

Jupyter Notebook, Python3

作业方法：

实现了前向匹配算法的分词功能。

源码地址：

https://github.com/YanqiangWang/NLP-Summer-Course

作业步骤：

1.处理语料库: 删除段前标号，以及词性标注。

# 读取原始语料文件

in_path = '1998-01-105-带音.txt'

file = open(in_path, encoding='gbk')

in_data = file.readlines()

# 预处理后的语料库

curpus_path = 'curpus.txt'

curpusfile = open(curpus_path, 'w', encoding='utf-8')

#删除段前标号,[],{},词性标注(最短匹配)

for sentence in in_data:

    words = sentence.strip().split(' ')

    words.pop(0)

    for word in words:

        if word.strip() != '':

            if word.startswith('['):

                word = word[1:]

            elif ']' in word:

                word = word[0:word.index(']')]

            if '{' in word:

                word = word[0:word.index('{')]

            w_c = word.split('/')

            # 生成语料库

            curpusfile.write(w_c[0] + ' ')

    curpusfile.write('\n')

2.随机划分训练集80%和验证集20%。

from sklearn.model_selection import train_test_split

# 随机划分

curpus = open(curpus_path, encoding='utf-8').readlines()

train_data, test_data = train_test_split(

    curpus, test_size=0.2, random_state=10)

# 查看划分后的数据大小

print(len(curpus))

print(len(train_data) / len(curpus))

print(len(test_data) / len(curpus))

22787

0.7999736691973494

0.20002633080265064

3.前向匹配算法FMM的实现。

# 生成词典

from tqdm import tqdm_notebook

dic = []

for sentence in tqdm_notebook(train_data):

    words = sentence.strip().split(' ')

    for word in words:

        if word.strip() != '':

            if word not in dic:

                dic.append(word)

# 设置单词最大长度

max_dic_len = 5

# 生成分词测试文本

test_text = []

for sentence in test_data:

    words = sentence.strip().split(' ')

    test_text.append(''.join(words))

# 保存验证集

test_path = 'test.txt'

testfile = open(test_path, 'w', encoding='utf-8')

for sentence in test_data:

    testfile.write(sentence)

# 保存分词结果

result_path = 'result.txt'

resultfile = open(result_path, 'w', encoding='utf-8')

# 前向匹配

for sentence in tqdm_notebook(test_text):

    sent = sentence

    words = []

    max_len = max_dic_len

    while(len(sent) > 0):

        word_len = max_len

        for i in range(0, max_len):

            word = sent[0:word_len]

            if word_len == 1 or word in dic:

                sent = sent[word_len:]

                words.append(word)

                word = []

                break

            else:

                word_len -= 1

                word = []

    resultfile.write(' '.join(words) + '\n')

性能评价

查准率，查全率，F度量

Precision = (Number of words correctly segmented) / (Number of words segmented) * 100%

Recall = (Number of words correctly segmented) / (Number of words in the reference) * 100%

F measure = 2 * P * R / (P + R)

def get_word(path):

    f = open(path, 'r', encoding='utf-8')

    lines = f.readlines()

    return lines

result_lines = get_word(result_path)

test_lines = get_word(test_path)

list_num = len(test_lines) if len(test_lines) < len(result_lines) else len(result_lines)

right_num = 0

result_cnt = 0

test_cnt = 0

for i in tqdm_notebook(range(list_num)):

    result_sent = list(result_lines[i].split())

    test_sent = list(test_lines[i].split())

    result_cnt += len(result_sent)

    test_cnt += len(test_sent)

    str_result = ''

    str_test = ''

    i_result = 0

    i_test = 0

    while i_result < len(result_sent) and i_test < len(test_sent):

        word_result = result_sent[i_result]

        word_test = test_sent[i_test]

        str_result += word_result

        str_test += word_test

        if word_result == word_test:

            right_num += 1

            i_result += 1

            i_test += 1

        else:

            while len(str_result) > len(str_test):

                i_test += 1

                if i_test >= len(test_sent):

                    break

                str_test += test_sent[i_test]

            while len(str_result) < len(str_test):

                i_result += 1

                if i_result >= len(result_sent):

                    break

                str_result += result_sent[i_result]

            i_test += 1

            i_result += 1

print("生成结果词的个数：", result_cnt)

print("验证集结果词个数：", test_cnt)

p = right_num / result_cnt

r = right_num / test_cnt

f = 2 * p * r / (p + r)

print("查准率：", p)

print("查全率：", r)

print("F度量：", f)

生成结果词的个数： 227640

验证集结果词个数： 219680

查准率： 0.8301748374626603

查全率： 0.8602558266569555

F度量： 0.8449476884556917

【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）的更多相关文章

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）
作业任务: 使用98年人民日报语料库进行词性标注训练及测试. 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集. 运行环境: ...
开源中文分词工具探析（五）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
开源中文分词工具探析（六）：Stanford CoreNLP
CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer ...
NLP+词法系列（二）︱中文分词技术简述、深度学习分词实践（CIPS2016、超多案例）
摘录自:CIPS2016 中文信息处理报告<第一章词法和句法分析研究进展.现状及趋势>P4 CIPS2016 中文信息处理报告下载链接:http://cips-upload.bj.bce ...
NLP+词法系列（一）︱中文分词技术小结、几大分词引擎的介绍与比较
笔者想说:觉得英文与中文分词有很大的区别,毕竟中文的表达方式跟英语有很大区别,而且语言组合形式丰富,如果把国外的内容强行搬过来用,不一样是最好的.所以这边看到有几家大牛都在中文分词以及NLP上越走越远 ...
NLP自然语言处理 jieba中文分词,关键词提取,词性标注,并行分词,起止位置,文本挖掘,NLP WordEmbedding的概念和实现
1. NLP 走近自然语言处理概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话.办公写作.上网浏览希望机器能像人一样去理解,以 ...
NLP & 中文分词
NLP & 中文分词中文分词 (Word Segmentation, WS) 指的是将汉字序列切分成词序列. 中文自然语言处理系统 https://www.ltp-cloud.com/int ...
NLP系列-中文分词（基于统计）
上文已经介绍了基于词典的中文分词,现在让我们来看一下基于统计的中文分词. 统计分词: 统计分词的主要思想是把每个词看做是由字组成的,如果相连的字在不同文本中出现的次数越多,就证明这段相连的字很有可能就 ...
【NLP】中文分词：原理及分词算法
一.中文分词词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键. ...

随机推荐

Python趣味入门01:你真的了解Python么？
小牛叔倾情出品,史上更简单有趣的Python入门系列教程,用认真.上心的原创带你飞. 0.Why Python ? 什么入门用python,其实这和它的气质有关,根据CHM(计算机历史博物馆)网站介绍 ...
Codeforces_814
A.b序列从大到小填a序列中的0,在判断. #include<bits/stdc++.h> using namespace std; ],b[]; int main() { ios::sy ...
thinkphp远程执行漏洞的本地复现
thinkphp远程执行漏洞的本地复现 0X00漏洞简介由于ThinkPHP5 框架控制器名没有进行足够的安全监测,导致在没有开启强制路由的情况下,可以伪装特定的请求可以直接Getshell(可以 ...
error C2662
原因:关于const的问题具体错误:函数的参数列表中参数签名为const,但是却调用了该参数的非const的成员函数例子: 即使我们知道NoConst()并不会改变类的data成员,编译器依旧会报 ...
python学习（2）关于字符编码
关于字符编码的学习内容笔记如下: 1.计算机只能用0和1来进行记录和存储.计算机是二进制. 2.ASCII(American Standard Code for Information Interch ...
12-MyBatis02
今日知识 1. 关联查询 2. 延时加载 3. 查询缓存关联查询 1.一对一 resultType实现 1. 写个定单的扩展类 public class OrdersExt extends Orde ...
ajax面试要点
目录目录 ajax是什么? 优点缺点 ajax的工作原理如何创建一个ajax(ajax的交互模型) ajax过程中get和post的区别同步和异步的区别 JavaScript 的同源策略如何 ...
记一次kubernetes驱逐踩坑
最近在公司的线上服务器上发现了一个现象: 将某个node的kubelet短暂的停掉之后,其上的pod马上会被驱逐,这让笔者大吃一惊,印象之中,停掉kubelet后,该node会变为NotReady状态 ...
基于MR实现ngram语言模型
在大数据的今天,世界上任何一台单机都无法处理大数据,无论cpu的计算能力或者内存的容量.必须采用分布式来实现多台单机的资源整合,来进行任务的处理,包括离线的批处理和在线的实时处理. 鉴于上次开会讲了语 ...
使用FIO工具测试块存储性能
Linux实例和Windows实例都推荐使用FIO工具测试块存储性能. 说明您也可以使用其他工具测试块存储性能,但不同工具测试出来的硬盘基准性能会有差异,如dd.sysbench.iometer ...