浅析word2vec（一）

python之家 2024-11-08 11:38:33 原文

1 word2vec

在自然语言处理的大部分任务中，需要将大量文本数据传入计算机中，用以信息发掘以便后续工作。但是目前计算机所能处理的只能是数值，无法直接分析文本，因此，将原有的文本数据转换为数值数据成为了自然语言处理任务的关键一环。

Word2vec，为一群用来产生词向量的相关模型。这些模型为浅层双层的神经网络，用来训练以重新建构语言学之词文本。 ————维基百科

简单来说，word2vec的系列模型可以将文字（此处特指中文字符）转换成向量，比如“我爱中国”这句话，经过模型处理后，可能会变为以下4个向量：
（0.12,0.45,-0.3,0.44）,（0.2,0.6,0.7,0.9）,（-0.76,0.53,0.88,-0.31）,(0.47,0.92,0.66,0.89),
这种向量称为词向量（对中文而言也可以称作字向量），后续对"我爱中国"的处理便可以转为对以上4个词向量的处理。
那么这种转换是如何完成的，这就要谈及word2vec中的两个经典模型：skip-grams和CBOW，CBOW下次再讲，本文主要介绍skip-grams.
关于skip-grams的详细说明，诸位可以参考网页：https://becominghuman.ai/how-does-word2vecs-skip-gram-work-f92e0525def4

2 模型特点

skip-grams的工作方法与其它模型略有差别，词向量的获取并不是通过输入一个字到skip-grams中再从模型中输出一个向量。相反，只要将skip-grams模型训练完成后，所有参与训练的字就已经获得了自己的词向量；换句话说，所有的词向量已经作为模型的可训参数储存在模型自身，想要得到某个字的词向量，只需依照某种规则从模型参数中提取即可，所以模型的训练阶段至关重要。

3 训练过程

3.1 获取训练样本

模型的训练思路大体如下：初始先给每个字随机分配一个词向量，然后选定一字作为中心字，取一个固定的长度，在原始语料中获得训练样本，如下图所示：

3.2 统计频率

统计上下文字出现在中心字周围的频率，作为该字与中心字共存的概率。

3.3 模型参数调整

在给定的词向量的基础上，依次计算每个字与中心字共存的概率大小。多数情况下，这与上一步实际统计出来的有所差异，所以要调整模型参数，使得概率分布更符合实际情况，对参数的调整就是对词向量的调整。如此进行若干次后，以至于每个字都有机会作为中心字参与训练。参数训练完成后，则每个字对应的词向量已经得到。

4 备注

模型训练完成后，每个字通常会有两个词向量与之对应，一个是该字作为中心字时的词向量，一个是该字作为其它字的上下文字时的词向量，一般选取前者代表该字最终的词向量。

浅析word2vec（一）的更多相关文章

word2vec 原理浅析及高效训练方法
1. https://www.cnblogs.com/cymx66688/p/11185824.html (word2vec中的CBOW 和skip-gram 模型浅析) 2. https://ww ...
word2vec浅析
本文是參考神经网络语言模型.word2vec相关论文和网上博客等资料整理的学习笔记.仅记录自己的学习历程,欢迎拍砖. word2vec是2013年google提出的一种神经网络的语言模型,通过神经网 ...
word2vec原理浅析
1.word2vec简介 word2vec,即词向量,就是一个词用一个向量来表示.是2013年Google提出的.word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型( ...
SQL Server on Linux 理由浅析
SQL Server on Linux 理由浅析今天的爆炸性新闻<SQL Server on Linux>基本上在各大科技媒体上刷屏了大家看到这个新闻都觉得非常震精,而美股,今天微软开 ...
【深入浅出jQuery】源码浅析--整体架构
最近一直在研读 jQuery 源码,初看源码一头雾水毫无头绪,真正静下心来细看写的真是精妙,让你感叹代码之美. 其结构明晰,高内聚.低耦合,兼具优秀的性能与便利的扩展性,在浏览器的兼容性(功能缺陷.渐 ...
高性能IO模型浅析
高性能IO模型浅析服务器端编程经常需要构造高性能的IO模型,常见的IO模型有四种: (1)同步阻塞IO(Blocking IO):即传统的IO模型. (2)同步非阻塞IO(Non-blocking ...
netty5 HTTP协议栈浅析与实践
一.说在前面的话前段时间,工作上需要做一个针对视频质量的统计分析系统,各端(PC端.移动端和 WEB端)将视频质量数据放在一个 HTTP 请求中上报到服务器,服务器对数据进行解析.分拣后从不同的 ...
Jvm 内存浅析及 GC个人学习总结
从诞生至今,20多年过去,Java至今仍是使用最为广泛的语言.这仰赖于Java提供的各种技术和特性,让开发人员能优雅的编写高效的程序.今天我们就来说说Java的一项基本但非常重要的技术内存管理了解C ...
从源码浅析MVC的MvcRouteHandler、MvcHandler和MvcHttpHandler
熟悉WebForm开发的朋友一定都知道,Page类必须实现一个接口,就是IHttpHandler.HttpHandler是一个HTTP请求的真正处理中心,在HttpHandler容器中,ASP.NET ...

随机推荐

PHP——foreach
一.foreach 在PHP中foreach循环语句,常用于遍历数组,一般有两种使用方式:不取下标.取下标 (一)只取值,不取下标 <?php foreach (数组 as 值){ //执行的任 ...
Ubuntu下配置GitHub
使用GitHub进行代码托管是如此地方便,原来一直在Windows下进行操作,非常的简单,由于其图形化界面将所有这些都隐藏起来了. 还是不得不吐槽一下自己,非得将自己的系统装为Ubuntu... 言归 ...
HTTP的传输编码(Transfer-Encoding:chunked)
转载自HTTP传输编码增加了传输量,只为解决这一个问题 | 实用 HTTP,本来是将这篇文章收藏在我的有道云笔记的,但是今天复习的时候看着这个标题这尴尬,这里转载一下-... 什么是传输编码? 传输编 ...
Mac系统 python2.7中安装MySQLdb
由于要在python2.7上使用到MySQLdb连接数据库,所以要安装MySQLdb,也就是MySQL-Python.安装之前已经有人告诉我,这个东西比较难装,果然我也遇到好多问题,在百度找了半天,发 ...
reactNative-解决react native使用fetch函数 Network request failed 问题
解决react native使用fetch函数Network request failed问题最近公司新开发一个app, 用react native架构好后,用xcode模拟器打开app,对接登陆接 ...
php--->自己封装的简易版mvc框架
最近根据自己的理解,封装了一个自己的框架,来重新系统化梳理自己对mvc框架的理解:后续会陆续添加各种新的功能. 欢迎指点交流. GitHub:https://github.com/Frankltf/m ...
使用GoldenGate完成MySQL到MySQL的同步
(一)基础环境配置源库目标库操作系统版本 CentOS Linux release 7.4 CentOS Linux release 7.4 IP地址 192.168.10.11 192.1 ...
demon病毒样本分析
1. 简介该样本是前几周爆发的THINKPHP漏洞中,被批量上传的一个病毒样本.如图所示. 2. 分析该样本未经混淆,加壳,所以直接拖到IDA中即可分析. 首先从main函数开始.做一些初始化的函 ...
python 函数3（模块）
1.将函数存储在模块中 1.1.导入整个模块要将函数导入,得先创建模块,模块是扩展名为.py的文件,包含要导入到程序中的代码. 首先定义编写一个.py的文件,命名为pizza.py,代码如下: d ...
2019牛客多校2 H Second Large Rectangle(悬线法)
题意: 求第二大子矩形思路: 设最大子矩形x*y,第二大子矩形一定在一下情况中 (x-1)*y x*(y-1) 其他最大子矩形候选者注意去重手法代码: #include<iostream& ...