SciTech-BigDataAIML-LLM-Transformer Series-Input+Output-Sampling + Vectorize and Matrixize 不同类型的Input数据(Text/Picture/Audio/Video/Graph:如社交网与分子图)
SciTech-BigDataAIML-LLM-Transformer Series
Sampling(采样)
Sampling Rate(采样速率)
单位时间采集样本的数量, 有单位.
例视频以frame/second为单位, 音频的 kbpsSampling Resolution(采样精度)
Digitalize(数量化) a Sample(采集到的样本)时,
表示“信号值域”所用的bit(位数)。
例如:- 音频 的 16bit, 24bit, 32bit 就是指其 "采样精度";
- Panel(显示屏)的 dpi(Dots Per Inch);
- Color Channel(色彩通道)的8bit与10bit
- 视频设备 的 FHD, 2K, 4K, 8K 也是指其“显示的精度”.
Resampling(重采样)
不同制式之间进行转换, 有时需要Resampling.
“高”转“低”容易, 但“低”转“高”时最需要尽可能保障还原度.
Vectorize(向量化) and Matrixize(矩阵化) 不同数据
常用的\(\large Input\)数据类型有:
Text文本: Word Embedding就可以转化Word Seq.为Matrix(Vector Seq.)
将每一word 变换为一 Vector,
就可以将整段Text(Word Seq.)变化为一 Matrix(Vector Seq.).Audio语音, Picture图片, Video视频,
这三类都可采用 "Stepping Slip Window" 或"CNN"方式,
并Sampling a frame( OR Window) 来将each frame(OR window)转化成一 Vector,
最终将数据转化成一 Matrix(Vector Seq.).
如下图: 对audio音频进行Vectorize与Matrixize,
将 Slip Window设为25ms时长, Step为10ms; 对frame进行Sampling 得到其 Vector.
将完整的audio音频 转换为一 Matrix. 如一段 1s音频 转换为长100的Matrix(Vector Seq.).
![]()
Graph图结构(如社交网图与分子结构图)、Object二进制对象(如可执行文件).
可将 a Node 用 a Vector 表示, 于是整个 "Graph" "转化为一个 "Matrix(Vector Seq.)"
比如:- Social Network Graph 将 a Node 的 Profile(账户信息) 表示为一 "Vector";
![]()
- Molecular Structure Graph:
将 an Atom 表示为一个One-Hot vector(也可 Embedding with Context),
进一步可将 Molecule Structure 表示为一 Matrix(Vector Seq.).
![]()
- Social Network Graph 将 a Node 的 Profile(账户信息) 表示为一 "Vector";
常用的\(\large Output\)数据类型有:
\(\large N:N\) 输入 N长 的 Vector Seq., 输出 N长的 label Seq., 每个vector对应一个label.
![]()
\(\large N:1\) 输入 N长 的 Vector Seq., 输出 unique label
![]()
\(\large N:M\) 输入 N长 的 Vector Seq., 输出 M长(模型决定长度)的 Vector Seq.
著名的 \(\large Seq2Seq\) \(\large Output\)模型. 经典应用是: Translation(机器翻译任务).
![]()
SciTech-BigDataAIML-LLM-Transformer Series-Input+Output-Sampling + Vectorize and Matrixize 不同类型的Input数据(Text/Picture/Audio/Video/Graph:如社交网与分子图)的更多相关文章
- read()、write()返回 Input/output error, Device or resource busy解决
遇到的问题,通过I2C总线读.写(read.write)fs8816加密芯片,报错如下: read str failed,error= Input/output error! write str fa ...
- PHP-FPM-failed to ptrace(PEEKDATA) pid 123: Input/output error
If you're running PHP-FPM you can see these kind of errors in your PHP-FPM logs. $ tail -f php-fpm.l ...
- NFS挂载异常 mount.nfs: Input/output error
[root@localhost ~]# vi /etc/exports #增加/nfs 192.168.10.132(rw,no_root_squash,no_all_squash,async) [r ...
- BIOS(Basic Input/Output System)是基本输入输出系统的简称
BIOS(Basic Input/Output System)是基本输入输出系统的简称 介绍 操作系统老师说,平时面试学生或者毕业答辩的时候他都会问这个问题,可见这个问题对于计算机专业的学生来说是如此 ...
- Angular 个人深究(三)【由Input&Output引起的】
Angular 个人深究(三)[由Input&Output引起的] 注:最近项目在做别的事情,angular学习停滞了 1.Angular 中 @Input与@Output的使用 //test ...
- Docker 在转发端口时的这个错误Error starting userland proxy: mkdir /port/tcp:0.0.0.0:3306:tcp:172.17.0.2:3306: input/output error.
from:https://www.v2ex.com/amp/t/463719 系统环境是 Windows 10 Pro,Docker 版本 18.03.1-ce,电脑开机之后第一次运行 docker ...
- dpdk EAL: Error reading from file descriptor 23: Input/output error
执行test程序时输出: EAL: Error reading from file descriptor 23: Input/output error 原因: 在虚拟机添加的网卡,dpdk不支持导致的 ...
- html5 填表 表单 input output 与表单验证
1.<output> Js计算结果 <form oninput="res.value = num1.valueAsNumber*num2.valueAsNumber ...
- mount_cd9660:/dev/acd0: Input/output error
mount -t cd9660 /dev/acd0 /cdrom g_vfs_done():acd0[READ(offset32768, length=204]error =5 mount_cd966 ...
- Input/output subsystem having an integrated advanced programmable interrupt controller for use in a personal computer
A computer system is described having one or more host processors, a host chipset and an input/outpu ...
随机推荐
- 北京市第六届信息通信行业网络安全技能大赛(初赛)-CTF夺旗阶段 EZRSA writeup
题目EZRSA EZRSA.py from Crypto.Util.number import * import gmpy2 from flag import m p = getPrime(1024) ...
- FHQ treap(无旋treap)
平衡树 平衡树作为一种中级数据结构,有着广泛的使用场景.其平衡性的维护方式灵活多变,而其中的无旋treap更以简单著称 P3369 [模板]普通平衡树 题意: 需维护以下操作: 插入一个数 x. 删除 ...
- System.Runtime.Serialization.SerializationException:“二进制流“0”不包含有效的 BinaryHeader。这可能是由于无效流,或由于在序列化和反序列化之间的对象版本更改。
var buffer = new byte[1024]; using (var ms = new MemoryStream(buffer)) { //xxx } 原因是buffer的长度过短,当接受到 ...
- SpringBoot性能优化的12个小技巧
前言 不知道你在SpringBoot项目中,有没有遇到过下面这样的代码: @GetMapping("/orders") public List<Order> listO ...
- Spring 注解之 @MapperScan 和 @Mapper
@Mapper注解 为了让别的类能够引用UserMapper,需要在UserMapper类上添加@Mapper注解: @Mapper public interface UserMapper { pub ...
- TPS和QPS的概念
TPS TPS:Transactions Per Second(每秒传输的事务处理个数),即服务器每秒处理完成的事务数.TPS包括一条消息入和一条消息出,加上一次用户数据库访问. TPS是 ...
- selenium driver add_cookie正确姿势
需求 seo给了个开发小需求,查询搜索引擎站点后台的索引量 需求分析 难点在于怎么绕过登录 技术选型 使用selenium+firefox+geckodriver执行抓取 技术难点解析 获取cooki ...
- 「Log」做题记录 2023.9.25-2023.10.29
\(2023.9.25-2023.10.1\) \(\color{limegreen}{P3524}\) 考虑删掉两个不相连的点,这两个点必定一个在团内一个在团外,删掉 \(\frac{n}{3}\) ...
- Joomla设计理念探讨系列2 -程序员要如何用代码实现“白纸幻想”?
客户幻想拖拖拽拽就建站?程序员连夜拆解出网格化背后的技术深渊. 1. 破灭的白纸幻想?不,是技术逻辑的碰撞 当客户兴奋地描述"白纸网格"时,程序员的第一反应往往是: "需 ...
- RAG越来越不准?一文详解元数据与标签的系统优化方法(附完整流程图+实用提示词)
你是不是也遇到过这样的场景? 公司刚花大钱上线AI知识库,结果AI助手总是"答非所问",文档明明都上传了,关键时刻还是找不到想要的答案: 苦心搭了一两个月RAG系统,老板随便一问, ...





