【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）

【【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）】的更多相关文章

【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）

作业任务: 使用98年人民日报语料库进行中文分词训练及测试. 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集. 运行环境: Jupyter Notebook, Python3 作业方法: 实现了前向匹配算法的分词功能. 源码地址: https://github.com/YanqiangWang/NLP-Summer-Course 作业步骤: 1.处理语料库: 删除段前标号,以及词性标注. # 读取原始语料文件 in_pa…

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）

作业任务: 使用98年人民日报语料库进行词性标注训练及测试. 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集. 运行环境: Jupyter Notebook, Python3 作业方法: 使用简单的统计词频的方法,对于单词的词性做出预测.暂未使用N-gram语言规则. 作业步骤: 1.处理语料库:删除段前标号. # 读取原始语料文件 in_path = '1998-01-105-带音.txt' file = open(i…

开源中文分词工具探析（五）：Stanford CoreNLP

CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer (NER)).情感分析(sentiment analysis)等功能. 1. 前言 CoreNLP也有中文分词,基于CRF模型: \[ P_w(y|x) = \frac{exp \left( \sum_i w_i f_i(x,y) \right)}{Z_w(x)} \] 其中,\(Z_w(x)\)为…

开源中文分词工具探析（六）：Stanford CoreNLP

CoreNLP是由斯坦福大学开源的一套Java NLP工具,提供诸如:词性标注(part-of-speech (POS) tagger).命名实体识别(named entity recognizer (NER)).情感分析(sentiment analysis)等功能. [开源中文分词工具探析]系列: 开源中文分词工具探析(一):ICTCLAS (NLPIR) 开源中文分词工具探析(二):Jieba 开源中文分词工具探析(三):Ansj 开源中文分词工具探析(四):THULAC 开源中文分词工具…