【NLP】暑假课作业3 - 词性标注（简单词频概率统计）

作业任务：

使用98年人民日报语料库进行词性标注训练及测试。

作业输入：

98年人民日报语料库（1998-01-105-带音.txt），用80%的数据作为训练集，20%的数据作为验证集。

运行环境：

Jupyter Notebook, Python3

作业方法：

使用简单的统计词频的方法，对于单词的词性做出预测。暂未使用N-gram语言规则。

作业步骤：

1.处理语料库：删除段前标号。

# 读取原始语料文件

in_path = '1998-01-105-带音.txt'

file = open(in_path, encoding='gbk')

in_data = file.readlines()

# 预处理后的语料库

curpus_path = 'curpus.txt'

curpusfile = open(curpus_path, 'w', encoding='utf-8')

#删除段前标号,[],{}

for sentence in in_data:

    words = sentence.strip().split(' ')

    words.pop(0)

    for word in words:

        if word.strip() != '':

            if word.startswith('['):

                word = word[1:]

            elif ']' in word:

                word = word[0:word.index(']')]

            w_c = word.split('/')

            # 生成语料库

            if(len(w_c) > 1):

                curpusfile.write(w_c[0] + ' ' + w_c[1] + '\n')

2.随机划分训练集80%和验证集20%。

from sklearn.model_selection import train_test_split

# 随机划分

curpus = open(curpus_path, encoding='utf-8').readlines()

train_data, test_data = train_test_split(

    curpus, test_size=0.2, random_state=10)

# 查看划分后的数据大小

print(len(curpus))

print(len(train_data) / len(curpus))

print(len(test_data) / len(curpus))

1114419

0.7999998205342874

0.20000017946571264

3.统计训练集的词频。

# 生成词频记录文件

from tqdm import tqdm_notebook

doc = []

for sentence in tqdm_notebook(train_data):

    words = sentence.strip().split(' ')

    if len(words) > 1:

        temp = []

        temp.append(words[0])

        temp.append(words[1])

        flag = False

        for line in doc:

            if line[0] == temp[0] and line[1] == temp[1]:

                line[2] += 1

                flag = True

                break

        if not flag:

            temp.append(1)

            doc.append(temp)

4.选择概率最大的词性。

# 保存验证集

test_path = 'test.txt'

testfile = open(test_path, 'w', encoding='utf-8')

for sentence in test_data:

    words = sentence.strip().split(' ')

    if len(words) > 1:

        testfile.write(sentence)

# 保存标注结果

result_path = 'result.txt'

resultfile = open(result_path, 'w', encoding='utf-8')

# 选择概率最大的词性进行标注

for sentence in tqdm_notebook(test_data):

    words = sentence.strip().split(' ')

    if len(words) > 1:

        words[1] = 'n'

        max = 0

        for line in doc:

            if line[0] == words[0] and line[2] > max:

                max = line[2]

                words[1] = line[1]

        resultfile.write(words[0] + ' ' + word[1] + '\n')

性能评价：准确率

def get_word(path):

    f = open(path, 'r', encoding='utf-8')

    lines = f.readlines()

    return lines

result_lines = get_word(result_path)

test_lines = get_word(test_path)

list_num = len(test_lines)

right_num = 0

for i in range(0, list_num):

    if result_lines[i][1] == test_lines[i][1]:

        right_num += 1

print("准确率为：", right_num / list_num)

准确率为： 0.23189316857201872

【NLP】暑假课作业3 - 词性标注（简单词频概率统计）的更多相关文章

【NLP】暑假课作业1 - 中文分词（前向匹配算法实现）
作业任务: 使用98年人民日报语料库进行中文分词训练及测试. 作业输入: 98年人民日报语料库(1998-01-105-带音.txt),用80%的数据作为训练集,20%的数据作为验证集. 运行环境: ...
C语言博课作业11
一.本周作业头这个作业属与那个课程 C语言程序设计I 这个作业要求在哪里 https://edu.cnblogs.com/campus/zswxy/CST2019-3/homework/10130 ...
ROS第一次课作业分享
ROS第一次课作业分享 2021年夏季学期学院开设了ROS的相关课程,最近在复习相关知识,正好做一下整理.下面是第一次作业的要求: 编写一个ROS节点,具备以下功能: 读取小海龟仿真器的/turtle ...
2016福州大学软件工程第二次团队作业——预则立&&他山之石成绩统计
第二次团队作业--预则立&&他山之石成绩统计结果如下: T:团队成绩 P:个人贡献比 T+P:折算个人成绩,计算公式为T+T/15*团队人数*P 学号组别 Team P T+P 03 ...
Struts2实现简单的在线人数统计
用Strust2框架的知识简单实现一个统计在线人数的问题. 1 搭建开发环境:(配置文件,jar包等问题) 2 index.jsp <%@ page language="java&qu ...
超简单的qps统计方法(推荐)【转】
统计最近N秒内的QPS值(包括每秒select,insert等值) mysql> select variable_name,sum(per_sec) as qps from (select st ...
用python实现简单EXCEL数据统计的实例
用python实现简单EXCEL数据统计的实例下面小编就为大家带来一篇用python实现简单EXCEL数据统计的实例.小编觉得挺不错的,现在就分享给大家,也给大家做个参考.一起跟随小编过来看看吧任 ...
作业3-个人项目<词频统计>
上了一天的课,现在终于可以静下来更新我的博客了. 越来越发现,写博客是一种享受.来看看这次小林老师的“作战任务”. 词频统计单词: 包含有4个或4个以上的字 ...
作业4-两人编程<词频统计>
协作:苗中峰,刘鑫成我主要攻克排序,成哥写了文件流的使用.整合工作由我完成,成哥帮我查阅资料,避免和解决语法错误. 这次任务较作业三的变化是: * ...

随机推荐

CInternetSession的简单使用
1. CInternetSession的简单使用 CInternetSession session; CHttpFile *file = NULL; CString strURL = " h ...
Nginx 部署及配置
Tengine + Luajit2 系统账号及环境配置 $ sudo useradd -g 100 -u 200 user_00 $ sudo groupadd -g 300 www $ sudo u ...
Docker的基本使用与简介
1 Docker简介 1.1 什么是虚拟化在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器.网络.内存及存储等,予以抽象.转换后呈现出来 ...
win7下彻底卸载和重装mysql
1 .目的:第一次安装完mysql后忘记了临时密码,通过各种途径都无法更改密码,因此不得不把mysql卸载了. 2 .建议:第一次安装mysql时会分配一个临时密码,如最后一行的se_:j<tq ...
Jenkins新建节点找不到通过Java web启动代理？
参考博客:Jenkins新建节点,启动方式没有“通过Java Web启动代理”选项怎么办? 在Jenkins中,打开“系统管理”→“管理节点”→“新建节点”页面时,“启动方式”选项没有“通过Java ...
实训第八天有关python orm 的学习记录常用方法02
继续沿用第七天数据库:def test2(request): # 1.xxx__lt 小于 :查询出年龄小于22的所有 ret=models.Person.objects.filter(age__lt ...
linux中文件处理命令
目录 touch cat more less head tail touch 解释命令名称:touch 命令所在路径:/bin/touch 执行权限:所有用户功能描述:创建空文件语法 touch ...
手把手教你搭建 ELK 实时日志分析平台
本篇文章主要是手把手教你搭建 ELK 实时日志分析平台,那么,ELK 到底是什么呢? ELK 是三个开源项目的首字母缩写,这三个项目分别是:Elasticsearch.Logstash 和 Kiban ...
[Wpf学习] 2.代码导入Xaml
废话不说,直接上代码 using System.ComponentModel; using System.Runtime.CompilerServices; using System.Windows; ...
JavaScript之BOM基础
BOM(Browser Object Model)也叫浏览器对象,它提供了很多对象,用于访问浏览器的功能.但是BOM是没有标准的,每一个浏览器厂家会根据自己的需求来扩展BOM对象.本文主要以一些简单的 ...