embedding models 是一类机器学习模型,它们的核心功能是将高维、离散的输入数据(如词汇、类别标签、节点或实体)映射到低维、连续的向量空间中。

这些向量(即 embeddings)通常具有丰富的语义信息,并能够捕捉原始数据之间的潜在关系和相似度。以下是对 embedding models 的详细说明:

1.目的与应用场景:

降维与表征学习:Embedding models 主要用于学习从原始数据到低维向量的有效映射,降低数据维度,便于后续计算和分析。这些低维向量保留了原始数据的关键特征和结构信息。

自然语言处理 (NLP):在 NLP 中,最经典的 embedding model 是词嵌入(Word Embeddings),如 Word2Vec、GloVe 和 FastText,它们将词语映射到实数向量,使得语义相近的词在向量空间中距离较近,用于文本分类、情感分析、机器翻译等任务。

推荐系统:用户和物品的嵌入模型用于捕获用户兴趣和物品属性的相似性,常用于个性化推荐、协同过滤等场景。

知识图谱:实体和关系嵌入(如 TransE、DistMult、RotatE)将知识图谱中的节点和边表示为向量,用于链接预测、实体对齐、推理等任务。

计算机视觉:图像特征嵌入用于提取图像的紧凑表示,用于图像检索、相似性比较、分类等任务。

2.学习方法:

无监督学习:许多早期的 embedding models 采用无监督学习方式,如基于神经网络的语言模型(Word2Vec的CBOW和Skip-gram模型)或全局词频统计(GloVe),通过最大化词语上下文的预测准确性或捕获全局共现信息来学习词嵌入。

有监督学习:在特定任务(如情感分析、命名实体识别)上训练的深度学习模型(如 BERT、ELMo、GPT),其词嵌入层作为预训练模型的一部分,可在下游任务中微调,实现有监督的embedding学习。

自监督学习:近期的一些模型(如 SimCLR、Momentum Contrastive Learning)利用数据增强和对比学习策略在无标签数据上学习高质量的图像或文本嵌入。

3.模型架构与训练:

神经网络架构:embedding models 常基于简单的前馈神经网络(如 Word2Vec)、复杂深度神经网络(如 BERT)或专门设计的图神经网络(如 GraphSAGE、Graph Attention Network)。

损失函数:根据学习目标,可能使用负采样损失(如 Word2Vec)、最大似然估计(如 GloVe)、三元组损失(如知识图谱嵌入)、对比学习损失(如 SimCLR)等。

训练数据:可以是纯文本语料库、用户-物品交互记录、知识图谱数据、图像数据集等。

4.应用与使用:

直接使用预训练模型:在很多情况下,可以直接使用已训练好的、针对通用任务的 embedding 模型,如使用预训练的 Word2Vec 或 GloVe 向量作为文本特征。

微调或适应特定领域:根据实际需求,可以在特定领域数据上对预训练模型进行微调,或者使用迁移学习策略调整现有模型以适应新的语境或任务。

嵌入向量操作:在下游任务中,嵌入向量可以进行加法、减法、点积、余弦相似度计算等操作,以利用其表征的语义信息。

总之,embedding models 是一种广泛应用于各类机器学习任务的技术,通过将复杂、离散的数据转化为低维、连续的向量表示,有效地捕捉数据间的语义关系,提升模型性能和泛化能力。这些模型在 NLP、推荐系统、知识图谱推理、计算机视觉等领域均有广泛应用。

AI 新世代

Online Tool

Link:https://www.cnblogs.com/farwish/p/18127206

embedding models 是什么的更多相关文章

  1. 论文阅读 Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks

    6 Predicting Dynamic Embedding Trajectory in Temporal Interaction Networks link:https://arxiv.org/ab ...

  2. 全网最详细中英文ChatGPT接口文档(四)30分钟快速入门ChatGPT——Models模型

    @ 目录 Models Overview 概述 GPT-4 Limited beta GPT-3.5 Feature-specific models 特定功能的模型 Finding the right ...

  3. 翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings

    翻译 | Improving Distributional Similarity with Lessons Learned from Word Embeddings 叶娜老师说:"读懂论文的 ...

  4. (转)Extracting knowledge from knowledge graphs using Facebook Pytorch BigGraph.

    Extracting knowledge from knowledge graphs using Facebook Pytorch BigGraph 2019-04-27 09:33:58 This ...

  5. 【NLP】How to Generate Embeddings?

    How to represent words. 0 . Native represtation: one-hot vectors Demision: |all words| (too large an ...

  6. [转]NLP Tasks

    Natural Language Processing Tasks and Selected References I've been working on several natural langu ...

  7. ICLR 2013 International Conference on Learning Representations深度学习论文papers

    ICLR 2013 International Conference on Learning Representations May 02 - 04, 2013, Scottsdale, Arizon ...

  8. IJCAI 2019 Analysis

    IJCAI 2019 Analysis 检索不到论文的关键词:retrofitting word embedding Getting in Shape: Word Embedding SubSpace ...

  9. basic deepwalk

    Get to know How deepwalk works by this project. Two steps: 1. gen the graph, and gen the corpus on t ...

  10. [CVPR2017] Visual Translation Embedding Network for Visual Relation Detection 论文笔记

    http://www.ee.columbia.edu/ln/dvmm/publications/17/zhang2017visual.pdf Visual Translation Embedding ...

随机推荐

  1. 【Atcoder F - Cumulative Cumulative Cumulative Sum】线段树

    要特别注意下精度,long,int范围.WA了几次 import java.util.Scanner; class Main { // static long[] A2 ;//i^2*AI // st ...

  2. Python简单程序设计(Time篇)

    如题: 解题方式如下:

  3. [Java]基本数据类型与引用类型赋值的底层分析的小结

    [版权声明]未经博主同意,谢绝转载!(请尊重原创,博主保留追究权) https://www.cnblogs.com/cnb-yuchen/p/17969159 出自[进步*于辰的博客] 目录 1.关于 ...

  4. MyBatis中的association与collection应用

    MyBatis中的association与collection应用 在使用 MyBatis进行数据库操作时,经常会遇到需要处理对象之间的关联关系和集合映射的情况.为了更好地实现对象关系映射,MyBat ...

  5. DW:优化目标检测训练过程,更全面的正负权重计算 | CVPR 2022

    论文提出自适应的label assignment方法DW,打破了以往耦合加权的惯例.根据不同角度的一致性和非一致性指标,动态地为anchor分配独立的pos权重和neg权重,可以更全面地监督训练.此外 ...

  6. KingbaseES V8R3 集群运维系列 -- sync_flag参数配置

    ​ 案例说明: 在KingbaseES V8R3集群一主二备的架构中,配置了流复制为同步(sync)模式,但是集群启动后,流复制状态中显示备库是async模式(备库和主库数据已经同步),从备库的rec ...

  7. FineReport 自定义工具栏样式

    虽然FR界面的工具栏已经很商业化,很好看了,但是总会有那么些需求希望你可以修改工具栏的样式. 修改工具栏样式的主要思路是: 通过JQ选择器选中需要调整的元素,然后修改他们的样式 接下来,我们尝试着对工 ...

  8. Vim 速查表 做记录 便于记忆

    Vim 命令速查表 简体中文 • English 简介:Vim 命令速查表,注释化 vimrc 配置文件,经典 Vim 键盘图,实用 Vim 书籍,Markdown 格式,目录化检索,系统化学习,体系 ...

  9. 11 JavaScript关于时间

    11 JavaScript关于时间 获取js的时间使用内置的Date函数完成 var d = new Date(); // 获取系统时间 // var d = new Date('2023-08-15 ...

  10. #状压dp,拓扑排序,内向基环树#CF1242C Sum Balance

    题目 有 \(k\) 个盒子, 第 \(i\) 个盒子有 \(n_i\) 个数. 保证所有数互不相同. 从每个盒子各拿出一个数, 并按照某种顺序放回去(每个盒子恰好放入一个数). 判断是否能使操作后所 ...