不同的自然语言有不同的语法结构，因此需要对语言数据进行语法解析，才能让机器更准确地学到相应的模式。而语言不同于图像，数据标注工作需要有一定的语言学知识，因此数据的整理也相对更困难。下面以英语为例（别的咱也看不懂），对NLP研究中常见的基本语言学概念进行记录。

词性（Part Of Speech）

　　词性（Part Of Speech, POS）通常在初中就学过：名词、动词、形容词、副词等，这里不再赘述。由于同一个词有多种不同词性的可能，因此数据标注时对语句中各个词的词性的标注就十分重要，从而消除词性歧义。如：

　　There are many chairs in the room.

　　He chairs the weekly meeting.

　　两个chairs分别是名词和动词。以下是宾夕法尼亚大学定义的词性标签（Penn Treebank POS Tags），NLP数据集中常用于语句中词性的分类：

短语结构语法（Phrase Structure Grammar）

　　短语结构语法是一种重写规则，用于描述给定语言的句法，从而消除语法歧义。这是一种基于成分的语法（constituency-based），每次分解对应的词汇可以有多个（与下面的依赖语法不同）。一般来说，每个句子（Sentence, S）都能被分为主语（名词短语, Noun Phrase, NP）和谓语（动词短语, Verb Phrase, VP）。NP和VP则能被进一步分解更小的NP和VP，或最终分解为不可分解的某种性质的词汇。例子如下：

　　The children ate the cake.

依存语法（Dependency Grammar）

　　依存语法将句子每个词汇看做是互相依赖的关系，因此每次分解只对应一个词汇。具体分解方式先占个坑，以后再记录。

NLP语言学基础的更多相关文章

NLP&数据挖掘基础知识
Basis(基础): SSE(Sum of Squared Error, 平方误差和) SAE(Sum of Absolute Error, 绝对误差和) SRE(Sum of Relative Er ...
NLP传统基础（1）---BM25算法---计算文档和query相关性
一.简介:TF-IDF 的改进算法 https://blog.csdn.net/weixin_41090915/article/details/79053584 bm25 是一种用来评价搜索词和文档之 ...
NLP传统基础（3）---潜在语义分析LSA主题模型---SVD得到降维矩阵
https://www.jianshu.com/p/9fe0a7004560 一.简单介绍 LSA和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(d ...
NLP传统基础（2）---LDA主题模型---学习文档主题的概率分布（文本分类/聚类）
一.简介 https://cloud.tencent.com/developer/article/1058777 1.LDA是一种主题模型作用:可以将每篇文档的主题以概率分布的形式给出[给定一篇文档 ...
Deep Learning in NLP （一）词向量和语言模型
原文转载:http://licstar.net/archives/328 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 NLP 领域中尚未见到如此激动人心的结果.关于这 ...
Deep Learning In NLP 神经网络与词向量
0. 词向量是什么自然语言理解的问题要转化为机器学习的问题,第一步肯定是要找一种方法把这些符号数学化. NLP 中最直观,也是到目前为止最常用的词表示方法是 One-hot Representati ...
Word2Vec之Deep Learning in NLP （一）词向量和语言模型
转自licstar,真心觉得不错,可惜自己有些东西没有看懂这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享.其中必然有局限性,欢迎各种交 ...
【NLP】自然语言处理：词向量和语言模型
声明: 这是转载自LICSTAR博士的牛文,原文载于此:http://licstar.net/archives/328 这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领 ...
自然语言处理(NLP)入门学习资源清单
Melanie Tosik目前就职于旅游搜索公司WayBlazer,她的工作内容是通过自然语言请求来生产个性化旅游推荐路线.回顾她的学习历程,她为期望入门自然语言处理的初学者列出了一份学习资源清单. ...
(Stanford CS224d) Deep Learning and NLP课程笔记（二）：word2vec
本节课将开始学习Deep NLP的基础--词向量模型. 背景 word vector是一种在计算机中表达word meaning的方式.在Webster词典中,关于meaning有三种定义: the ...

随机推荐

本地部署 Overleaf 服务
️ 注意:本教程只适用于 macOS / Linux 操作系统.如果需要在 Windows 上部署 Overleaf,请先安装 WSL,之后在 WSL 中部署 Overleaf . 本地部署 Over ...
使用 AWS CLI 管理 EC2
EC2 EC2 是 AWS 的云服务器服务 EC2: Elastic Compute Cloud 创建实例选择一个系统镜像(AMI): AMI(Amazon Machine Image)定义了启动实 ...
Redis解读（5）：Redis深入理解及生产高可用
Redis单线程如何处理高并发 1.阻塞IO 与非阻塞 IO Java 在 JDK1.4 中引入 NIO,但是也有很多人在使用阻塞 IO,这两种 IO 有什么区别? 在阻塞模式下,如果你从数据流中读 ...
Kubernetes-6：Pod生命周期介绍（init Container）
Pod生命周期生命周期 1.API server调用kubelet下达Pod创建指令 2.容器环境初始化 3.进入Pod生命周期内(Pod开始创建) 4.Pod只要创建,就会自动生成一个pause容 ...
部署在阿里云上的项目收到了阿里云发送的shiro漏洞
编辑还记得在十月份凯哥发布过一篇修改若依系统编辑器的文章,然后为了方便大家浏览,凯哥就部署在服务器上了,结果,没想到最近收到了阿里云漏洞扫描通知: 编辑如果不修改的话:对于长期存在安全隐患 ...
6.24Win&linux&分析后门勒索病毒分析
操作系统应急响应 1.常见危害暴力破解.漏洞利用.流量攻击(危害不确定) 木马控制(Webshell.PC木马等),病毒感染(挖矿.蠕虫.勒索等) 2.常见分析计算机用户.端口.进程.启动项.计划 ...
Goby漏洞发布 | CVE-2024-4879 ServiceNowUI /login.do Jelly模板注入漏洞【已复现】
漏洞名称:ServiceNowUI /login.do Jelly模板注入漏洞(CVE-2024-4879) English Name:ServiceNowUI /login.do Input Val ...
CPRFL：基于CLIP的新方案，破解长尾多标签分类难题 | ACM MM'24
现实世界的数据通常表现为长尾分布,常跨越多个类别.这种复杂性突显了内容理解的挑战,特别是在需要长尾多标签图像分类(LTMLC)的场景中.在这些情况下,不平衡的数据分布和多物体识别构成了重大障碍.为了解 ...
Linux命令每天都要使用，但又太长记不住怎么办？教你1个方法
序言各位好啊,我是会编程的蜗牛,作为java开发者 ,我们肯定会与linux服务器打交道,关于linux服务器的连接工具,可以参考我的文章Tabby,一款老外都在用的 SSH工具,竟然还支持网页操作~ ...
CSP-S 2023
T1 直接 \(10^{5}\) 枚举状态就过了,合法的非零差分数量只可能为 \(1,2\)(\(0\) 相当于没转,按照题意 "都不是正确密码" 是不符的) 需要注意的是形如 0 ...

NLP语言学基础

词性（Part Of Speech）

短语结构语法（Phrase Structure Grammar）

依存语法（Dependency Grammar）

NLP语言学基础的更多相关文章

随机推荐

热门专题