离散表示:

one-hot

bag of words --

词权重 ~不能表示顺序关系
    TF-IDF (Term Frequency - Inverse Document Frequency) 

    [0.693, 1.386, 0.693, 0.693, 1.099, 0, 0, 0, 0.693, 0.693]

    词t的IDF weight N: 文档总数, nt: 含有词t的文档数

  Binary weighting
    [1, 1, 1, 1, 1, 0, 0, 0, 1, 1]不能表示顺序关系

Bi-gram和N-gram

  Unigram/1-gram

  Bi-gram/2-gram
  P(Mary likes too) = P(too | Mark, likes) * P(likes | Mary) * P(Mary)
          = P(too | likes) * P(likes | Marry) * P(Mary)

分布式表示 (Distributed representation)

  用一个词附近的其他词来表示该词

共现矩阵 (Cocurrence matrix)

  Word - Document 的共现矩阵主要用于发现主题(topic), 用于主题模型, 如LSA (Latent Semantic Analysis)。局域窗中的Word - Word 共现矩阵可以挖掘语法和语义信息

  用SVD对共现矩阵向量做降维

 

NNLM (Neural Network Language model)

  直接从语言模型出发, 将模型最优化过程转化为求词向量表示的过程

  投影矩阵:词10000个  则10000*1-》300*1,相当于取出投影矩阵对应的该单词的那一列

  拼接

  最后要得到的结果是: 我 爱 北京 三个词都出现后,接下来一个词是什么--softmax给出1*10000的概率向量

word2vec: CBOW(连续词袋)  --

  没有用NNLM中的hidden layer(即去掉了非线性层,这样用cpu就可以做,不是个神经网络)

  不做投射层了,而作一个词向量查询表

  输入的时候直接是四个词的稠密向量--随机初始化

  没有用拼接300-》900维,而是sum300-》300

  输出还是10000维词向量,概率最大的就是预测出的词 

  两边的词预测中间的一个词- Continuous Bag-of-Words

  中间的一个词预测两边- skip gram

  改进--最后一层十万维维度太高

    hirerachical softmax:编码成更低维度,并且信息都在 --》树--》哈夫曼编码,层次softmax,连续做做决策,计算量变为树的深度logv的数量级

    negative sampling负例采样:10000个样本,中有10000-1个负样本 --》只取部分负样本--》如何取使得不影响结果:不是随机的,与我 喜欢 你 三个词的频率有关

    

离散表示
•  One-hot representation, Bag Of Words Unigram语言模型
•  N-gram词向量表示和语言模型
•  Co-currence矩阵的行(列)向量作为词向量
分布式连续表示
•  Co-currence矩阵的SVD降维的低维词向量表示
•  Word2Vec: Continuous Bag of Words Model
•  Word2Vec: Skip-Gram Mode

    

  

lecture2-word2vec-七月在线nlp的更多相关文章

  1. lecture1-Word2vec实战班-七月在线nlp

    nltk的全称是natural language toolkit,是一套基于python的自然语言处理工具集.自带语料库.词性分类库.自带分类分词等功能.强大社区支持.很多简单版wrapper 文本处 ...

  2. 七月在线爬虫班学习笔记(五)——scrapy spider的几种爬取方式

    第五课主要内容有: Scrapy框架结构,组件及工作方式 单页爬取-julyedu.com 拼URL爬取-博客园 循环下页方式爬取-toscrape.com Scrapy项目相关命令-QQ新闻 1.S ...

  3. 七月在线爬虫班学习笔记(六)——scrapy爬虫整体示例

    第六课主要内容: 爬豆瓣文本例程 douban 图片例程 douban_imgs 1.爬豆瓣文本例程 douban 目录结构 douban --douban --spiders --__init__. ...

  4. 七月在线爬虫班学习笔记(二)——Python基本语法及面向对象

    第二课主要内容如下: 代码格式 基本语法 关键字 循环判断 函数 容器 面向对象 文件读写 多线程 错误处理 代码格式 syntax基本语法 a = 1234 print(a) a = 'abcd' ...

  5. 第六课cnn和迁移学习-七月在线-cv

    ppt 参数共享终于把拿一点想清楚啦,一定要知道w是矩阵! 在传统BP中,w前后连接时是all的,辣么多w使得你给我多少图片我就能记住多少信息-->导致过拟合-->cnn当中权值共享 激励 ...

  6. lecture7图像检索-七月在线-cv

    http://blog.csdn.net/u014568921/article/details/52518587 图像相似性搜索的原理 BOW 原理及代码解析 Bag Of Visual Words ...

  7. lecture4特征提取-七月在线-cv

    霍夫变换 http://blog.csdn.net/sudohello/article/details/51335237 http://blog.csdn.net/glouds/article/det ...

  8. 牛客网/LeetCode/七月在线/HelloWorld114

    除了知乎,还有这些网站与offer/内推/秋招/春招相关. 其中HelloWorld114更是囊括许多IT知识. 当然,我们可以拓宽思考的维度,既然课堂上的老师讲不好,我们可以自己找资源啊= => ...

  9. 七月在线spark教程

    链接:https://pan.baidu.com/s/1Ir5GMuDqJQBmSavHC-hDgQ 提取码:qd2e

随机推荐

  1. spring cloud jwt用户鉴权及服务鉴权

    用户鉴权 客户端请求服务时,根据提交的token获取用户信息,看是否有用户信息及用户信息是否正确 服务鉴权 微服务中,一般有多个服务,服务与服务之间相互调用时,有的服务接口比较敏感,比如资金服务,不允 ...

  2. chrome shortkeys

    [{"action":"scrolldownmore","activeInInputs":true,"blacklist" ...

  3. Mysql 在 Windows环境下安装:应用程序无法正常启动0xc000007b

    DirectX 修复工具 v3.7增强版 链接: https://pan.baidu.com/s/135pZUNwpXcMZjyLB41sQCg 密码: gtb5

  4. ubuntu16.10安装搜狗输入法

    一.搜狗输入法安装 1.首先到搜狗输入法官网下载搜狗输入法,下载的是个deb文件. 搜狗输入法Linux版下载地址:http://pinyin.sogou.com/linux/?r=pinyin 2. ...

  5. JS 浮点型计算的精度问题 推荐的js 库 推荐的类库 Numeral.js 和 accounting.js

    推荐的类库 Numeral.js 和 accounting.js 文章来自 http://www.css88.com/archives/7324#more-7324

  6. sass和scss的区别

    页面引入的时候还是引入的css文件 因为sass和scss都是一种css的预处理工具 目的最后都是生成css文件 sass不带{}和:是基于Ruby 写出来的,严格的缩进方式来控制 scss带这两个 ...

  7. 怎么搜索sci论文。

    进入清华大学图书馆,选择常用数据库,找到 Web of Science平台(SCI/SSCI/AHCI.ISTP/ISSHP.DII.JCR.BP.CCC.CCR/IC.ESI.INSPEC…)即可. ...

  8. Cracking The Coding Interview4.5

    //原文: // // Write an algorithm to find the 'next' node (i.e., in-order successor) of a given node in ...

  9. linux 创建安装redis服务

    1.找下redis的官方的下载地址:http://download.redis.io/releases/redis-3.2.8.tar.gz  有最新的就下载最新 先下载解压跟安装 wget http ...

  10. Linux分区和挂载的理解

    在工作中经常使用到Linux,对分区和挂载的概念一直都很模糊,对网上的信息进行了整理,方便理解. 1为什么要分区(需理解硬盘的组成) 1)数据的安全性,因为每个分区的数据是分开的.所以,当你需要将某个 ...