lecture2-word2vec-七月在线nlp

离散表示：

one-hot

bag of words --

词权重 ~不能表示顺序关系
　TF-IDF (Term Frequency - Inverse Document Frequency)　

　　　　[0.693, 1.386, 0.693, 0.693, 1.099, 0, 0, 0, 0.693, 0.693]

　　　　词t的IDF weight N: 文档总数， nt: 含有词t的文档数

　　Binary weighting
　　　　[1, 1, 1, 1, 1, 0, 0, 0, 1, 1]不能表示顺序关系

Bi-gram和N-gram

　　Unigram/1-gram

　　Bi-gram/2-gram
　　P(Mary likes too) = P(too | Mark, likes) * P(likes | Mary) * P(Mary)
　　　　　　　　　　= P(too | likes) * P(likes | Marry) * P(Mary)

分布式表示 (Distributed representation)

　　用一个词附近的其他词来表示该词

共现矩阵 (Cocurrence matrix)

　　Word - Document 的共现矩阵主要用于发现主题(topic)，用于主题模型，如LSA (Latent Semantic Analysis)。局域窗中的Word - Word 共现矩阵可以挖掘语法和语义信息

　　用SVD对共现矩阵向量做降维

NNLM (Neural Network Language model)

　　直接从语言模型出发，将模型最优化过程转化为求词向量表示的过程

　　投影矩阵：词10000个则10000*1-》300*1，相当于取出投影矩阵对应的该单词的那一列

　　拼接

　　最后要得到的结果是：我爱北京三个词都出现后，接下来一个词是什么--softmax给出1*10000的概率向量

word2vec: CBOW(连续词袋) --

　　没有用NNLM中的hidden layer（即去掉了非线性层，这样用cpu就可以做，不是个神经网络）

　　不做投射层了，而作一个词向量查询表

　　输入的时候直接是四个词的稠密向量--随机初始化

　　没有用拼接300-》900维，而是sum300-》300

　　输出还是10000维词向量，概率最大的就是预测出的词

　　两边的词预测中间的一个词- Continuous Bag-of-Words

　　中间的一个词预测两边- skip gram

　　改进--最后一层十万维维度太高

　　　　hirerachical softmax：编码成更低维度，并且信息都在 --》树--》哈夫曼编码，层次softmax，连续做做决策，计算量变为树的深度logv的数量级

　　　　negative sampling负例采样：10000个样本，中有10000-1个负样本 --》只取部分负样本--》如何取使得不影响结果：不是随机的，与我喜欢你三个词的频率有关

离散表示
•  One-hot representation, Bag Of Words Unigram语言模型
•  N-gram词向量表示和语言模型
•  Co-currence矩阵的行(列)向量作为词向量
分布式连续表示
•  Co-currence矩阵的SVD降维的低维词向量表示
•  Word2Vec: Continuous Bag of Words Model
•  Word2Vec: Skip-Gram Mode

lecture2-word2vec-七月在线nlp的更多相关文章

lecture1-Word2vec实战班-七月在线nlp
nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集.自带语料库.词性分类库.自带分类分词等功能.强大社区支持.很多简单版wrapper 文本处 ...
七月在线爬虫班学习笔记（五）——scrapy spider的几种爬取方式
第五课主要内容有: Scrapy框架结构,组件及工作方式单页爬取-julyedu.com 拼URL爬取-博客园循环下页方式爬取-toscrape.com Scrapy项目相关命令-QQ新闻 1.S ...
七月在线爬虫班学习笔记（六）——scrapy爬虫整体示例
第六课主要内容: 爬豆瓣文本例程 douban 图片例程 douban_imgs 1.爬豆瓣文本例程 douban 目录结构 douban --douban --spiders --__init__. ...
七月在线爬虫班学习笔记（二）——Python基本语法及面向对象
第二课主要内容如下: 代码格式基本语法关键字循环判断函数容器面向对象文件读写多线程错误处理代码格式 syntax基本语法 a = 1234 print(a) a = 'abcd' ...
第六课cnn和迁移学习-七月在线-cv
ppt 参数共享终于把拿一点想清楚啦,一定要知道w是矩阵! 在传统BP中,w前后连接时是all的,辣么多w使得你给我多少图片我就能记住多少信息-->导致过拟合-->cnn当中权值共享激励 ...
lecture7图像检索-七月在线-cv
http://blog.csdn.net/u014568921/article/details/52518587 图像相似性搜索的原理 BOW 原理及代码解析 Bag Of Visual Words ...
lecture4特征提取-七月在线-cv
霍夫变换 http://blog.csdn.net/sudohello/article/details/51335237 http://blog.csdn.net/glouds/article/det ...
牛客网/LeetCode/七月在线/HelloWorld114
除了知乎,还有这些网站与offer/内推/秋招/春招相关. 其中HelloWorld114更是囊括许多IT知识. 当然,我们可以拓宽思考的维度,既然课堂上的老师讲不好,我们可以自己找资源啊= => ...
七月在线spark教程
链接:https://pan.baidu.com/s/1Ir5GMuDqJQBmSavHC-hDgQ 提取码:qd2e

随机推荐

win10系统office2010每次打开总是出现配置进度
mysql如何让自增id从某个位置开始设置方法
一般情况下两种方式: 1.本地数据不需要的情况下直接情况表(尽量不使用
Node.js编写be的流程(express)
Node.js编写be的流程 1.当前项目目录下首先安装express 2.自动生成express插件结构 express -e 3.执行完前两步的效果 4.此时的package.json ...
【框架】PageObject（一）
1.目的:为了将元素的find方法和业务逻辑分开来.如果元素的页面位置发生了变化,只需改动一个文件,而不影响业务的实现. 2.原理:一般一个页面对应一个class,在class里描述所有要用到的web ...
learning ddr DLL-off mode
vue中的axios
数据的获取最常用的就是用ajax,但在vue框架中,axios则更为方便.它是基于es6的promise 以下内容引用自[最骚的就是你] 不再继续维护vue-resource,并推荐大家使用 axio ...
day25 模块04_模块和包
休养生息--模块04 1.导入模块的执行的步骤 2.自定义模块 3.自定义包一.导入模块的执行步骤 1).判断当前正在导入的模块是否已经导入过 2).如果已经导入过,不会重新导入该模块 3).如果没 ...
vsts 管理持续集成跟自动化测试
1.代理池: 在服务器上,打开你的TFS Web站点,并转到管理页的代理池页面.如: https://www.cnblogs.com/atwind/p/5486881.html 低版本无法生成高版本. ...
python的编码与转码
编码问题一直是初学者的难题,搞不明白.甚至一些程序员做了多年的程序,但是编码一直整不清,下面就来认识认识编码吧. ASCII(American Standard Code for Informatio ...
MERGE INTO 解决大数据量 10w 更新缓慢的问题
有个同事处理更新数据缓慢的问题,数据量超10w的量,更新速度太慢耗时较长,然后改成了 MERGE INTO 效率显著提高. 使用方法如下 MERGE INTO 表A USING 表B ON 关联条件 ...

lecture2-word2vec-七月在线nlp

lecture2-word2vec-七月在线nlp的更多相关文章

随机推荐

热门专题