NLP-文本分类之开始(0)

转眼读研一年了，开题也开了，方向也定了，大方向就是NLP，然而从一开始的上课、做项目开题什么的(自己也比较贪玩，以前不打游戏，结果王者上瘾了)，到现在对NLP是一知半解，不对，半解都没有半解，然后时间是不等人的，学制两年，也该考虑毕业条件了(一篇SCI或两篇EI)，很难，用一句网上流行的话：我太难了。所以卸载王者，下定决心学习NLP，发个文本分类的文章，所以从文本分类学习开始吧。至到现在，我删除王者已有半月有余，但是对NLP还是那个状态，心情浮躁，再加上和同届同学已经有了差距，还有不知道怎么入门(给了一头猪，不知道从哪啃，从哪啃都感觉难，这更加浮躁了，心里着急但是还学不了)，最重要的是数学基础差。奈何不能心里有个声音在呐喊，不能一直这样，所以决心从这篇博客作为开始，好好学好好做。先记录一下自己目前所知道的有关NLP的知识，纯基于自己知道的，不百度。

一、NLP之文本分类的大概过程

　　准备数据集：要么选公共数据集(先辈们已经给规划好了，打好了标签或者用文件夹表示标签，文件夹里放的是好多.txt文件(所有.txt文件都属于该类)，要么是一个.txt文件，里面每行属于一类，行头为类别)

　　数据预处理：分词、去停用词，去干扰(标点符号)，向量化(word2vec、BoW、One-hot、N-gram)

　　分类模型：CNN、LSTM、Bi-lstm等

二、我会多少

　　找公共数据集、自己的数据集打标签(确定了分类后)

　　分词(用分词工具包：jieba、pkuseg等)

三、一些概念理解

　　分词：就是把文本分成一个一个词，如“我是郭心全，来自山东。”分为：我是郭心全，来自山东。

　　去停用词：就是删除没用的词。根据停用词词典(可以在网上找或自己做)，删除分完的文本中的停用词

　　词性标注()：把处理好的文本中每个词给其后面加上/，然后加上所属词性(n,v,adj,adv,preb等)

　　命名实体识别(NER)：就是找出一些实体：如人名、地名、企业名、时间等

　　语义分析：就是分析句子，如某个词在另一个词之前或之后什么的

　　dropout：这还是我昨天刚看的。就是为了防止过拟合用的，就是数据较少，参数较多，容易在训练集上效果好，在测试集上效果差。主要用在前馈网络中，以一定的概率来隐藏一些神经元，多次来回训练，以降低过拟合。

　　召回率：仅知道概念(后面学)

　　f值：仅知道概念(后面学)

　　卷积：用一个滤波器(就是一个矩阵)。。。。。。这个原理真懂不知道咋说，可以百度一下，原理解释好多

　　池化：和卷积差不多，这个也有一个滑动窗口(类似于一个filter)

　　代码：仅会一些基本的python

　　框架：TensorFlow、pytorch、numpy、sklears、matplot(好像是这么拼写)、pandas等，但是没怎么用过

刚刚看到的一个CSDN博主的学习记录，博客是：https://blog.csdn.net/Dacc123/article/details/82461363

往后我觉得我还会找类似的博客，跟着博主们学习，在此感谢了

加一个好的网页：https://www.biaodianfu.com/category/bigdata

准备怎么做：跟着博主：https://www.cnblogs.com/jiangxinyang/p/10207273.html 完成文本分类实战，伴随着每一个博客的实现，把其中概念、模型摸索一遍

NLP-文本分类之开始(0)的更多相关文章

fastText、TextCNN、TextRNN……这里有一套NLP文本分类深度学习方法库供你选择
https://mp.weixin.qq.com/s/_xILvfEMx3URcB-5C8vfTw 这个库的目的是探索用深度学习进行NLP文本分类的方法. 它具有文本分类的各种基准模型,还支持多标签分 ...
NLP文本分类方法汇总
模型: FastText TextCNN TextRNN RCNN 分层注意网络(Hierarchical Attention Network) 具有注意的seq2seq模型(seq2seq with ...
浅谈NLP 文本分类/情感分析任务中的文本预处理工作
目录浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言 NLP相关的文本预处理浅谈NLP 文本分类/情感分析任务中的文本预处理工作前言之所以心血来潮想写这篇博客,是因为最近在关注N ...
NLP文本分类
引言其实最近挺纠结的,有一点点焦虑,因为自己一直都期望往自然语言处理的方向发展,梦想成为一名NLP算法工程师,也正是我喜欢的事,而不是为了生存而工作.我觉得这也是我这辈子为数不多的剩下的可以自己去追 ...
NLP系列(2)_用朴素贝叶斯进行文本分类(上)
作者:龙心尘 && 寒小阳时间:2016年1月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50597149 h ...
NLP（十六）轻松上手文本分类
背景介绍文本分类是NLP中的常见的重要任务之一,它的主要功能就是将输入的文本以及文本的类别训练出一个模型,使之具有一定的泛化能力,能够对新文本进行较好地预测.它的应用很广泛,在很多领域发挥着重要 ...
NLP大赛冠军总结：300万知乎多标签文本分类任务(附深度学习源码)
NLP大赛冠军总结:300万知乎多标签文本分类任务(附深度学习源码) 七月,酷暑难耐,认识的几位同学参加知乎看山杯,均取得不错的排名.当时天池AI医疗大赛初赛结束,官方正在为复赛进行平台调 ...
NLP系列(3)_用朴素贝叶斯进行文本分类(下)
作者: 龙心尘 && 寒小阳时间:2016年2月. 出处: http://blog.csdn.net/longxinchen_ml/article/details/50629110 ...
百度开源其NLP主题模型工具包，文本分类等场景可直接使用L——LDA进行主题选择本质就是降维，然后用于推荐或者分类
2017年7月4日,百度开源了一款主题模型项目,名曰:Familia. InfoQ记者第一时间联系到百度Familia项目负责人姜迪并对他进行采访,在本文中,他将为我们解析Familia项目的技术细节 ...
NLP（七）信息抽取和文本分类
命名实体专有名词:人名地名产品名例句命名实体 Hampi is on the South Bank of Tungabhabra river Hampi,Tungabhabra River ...

随机推荐

吴裕雄--天生自然TensorFlow2教程：张量限幅
import tensorflow as tf a = tf.range(10) a # a中小于2的元素值为2 tf.maximum(a, 2) # a中大于8的元素值为8 tf.minimum(a ...
eclipse中tomcat添加或移除web项目出错，显示无资源能被添加或移除
错误截图之前一直都能正常使用,今天莫名其妙出现这个错误解决办法 https://blog.csdn.net/u012956987/article/details/79134474 右击项目,在属性 ...
干货 | 运维福音——Terraform自动化管理京东云
干货 | 运维福音--Terraform自动化管理京东云原创: 张宏伟京东云开发者社区昨天 Terraform是一个高度可扩展的IT基础架构自动化编排工具,主张基础设施即代码,可通过代码集中管 ...
PAT Advanced 1079 Total Sales of Supply Chain (25) [DFS，BFS，树的遍历]
题目 A supply chain is a network of retailers(零售商), distributors(经销商), and suppliers(供应商)– everyone in ...
webpack4+vue 打包就是没效果？求解！！！
开始对着视频操作教学视频用的webpack2 所以没成功但是 Jquery 可以成功渲染.Vue就不行. 百度 webpack4+vue打包简单入门:https://segmentfault ...
38. docker cloud 简介及关联 git hub
1.概念提供容器的管理, 编排, 部署的托管服务 2.功能 image 管理创建 stack 创建服务 service 添加节点作为 docker host 自动关联云服务商 AWS A ...
Python基础学习一
Python基础学习一 1.变量与常量变量名:大小写英文.数字.下划线的组合,数字不能开头常量名:习惯上常量用大写字母命名,例如"PI" 2.多行输出转义符:反斜杠(),如果 ...
Java 中的接口有什么作用？以及接口和其实现类的关系？
Java 中的接口有什么作用? - Ivony的回答 - 知乎 https://www.zhihu.com/question/20111251/answer/16585393 这是一个初学者非常常见的 ...
17.3.10--->关于数值溢出问题
取值范围: short.int.long 占用的字节数不同,所能表示的数值范围也不同.以32位平台为例,下面是它们的取值范围: 数据类型所占字 ...
PAT Advanced 1023 Have Fun with Numbers (20) [⼤整数运算]
题目 Notice that the number 123456789 is a 9-digit number consisting exactly the numbers from 1 to 9, ...

NLP-文本分类之开始(0)

NLP-文本分类之开始(0)的更多相关文章

随机推荐

热门专题