SciTech-BigDataAIML-LLM-Transformer Series

Sampling(采样)

  • Sampling Rate(采样速率)

    单位时间采集样本的数量, 有单位.

    例视频以frame/second为单位, 音频的 kbps

  • Sampling Resolution(采样精度)

    Digitalize(数量化) a Sample(采集到的样本)时,

    表示“信号值域”所用的bit(位数)。

    例如:

    • 音频 的 16bit, 24bit, 32bit 就是指其 "采样精度";
    • Panel(显示屏)的 dpi(Dots Per Inch);
    • Color Channel(色彩通道)的8bit与10bit
    • 视频设备 的 FHD, 2K, 4K, 8K 也是指其“显示的精度”.
  • Resampling(重采样)

    不同制式之间进行转换, 有时需要Resampling.

    “高”转“低”容易, 但“低”转“高”时最需要尽可能保障还原度.

Vectorize(向量化) and Matrixize(矩阵化) 不同数据

常用的\(\large Input\)数据类型有:

  • Text文本: Word Embedding就可以转化Word Seq.为Matrix(Vector Seq.)

    将每一word 变换为一 Vector,

    就可以将整段Text(Word Seq.)变化为一 Matrix(Vector Seq.).

  • Audio语音, Picture图片, Video视频,

    这三类都可采用 "Stepping Slip Window" 或"CNN"方式,

    并Sampling a frame( OR Window) 来将each frame(OR window)转化成一 Vector,

    最终将数据转化成一 Matrix(Vector Seq.).

    如下图: 对audio音频进行Vectorize与Matrixize,

    将 Slip Window设为25ms时长, Step为10ms; 对frame进行Sampling 得到其 Vector.

    将完整的audio音频 转换为一 Matrix. 如一段 1s音频 转换为长100的Matrix(Vector Seq.).

  • Graph图结构(如社交网图与分子结构图)、Object二进制对象(如可执行文件).

    可将 a Node 用 a Vector 表示, 于是整个 "Graph" "转化为一个 "Matrix(Vector Seq.)"

    比如:

    • Social Network Graph 将 a Node 的 Profile(账户信息) 表示为一 "Vector";

    • Molecular Structure Graph:

      将 an Atom 表示为一个One-Hot vector(也可 Embedding with Context),

      进一步可将 Molecule Structure 表示为一 Matrix(Vector Seq.).

常用的\(\large Output\)数据类型有:

  1. \(\large N:N\) 输入 N长 的 Vector Seq., 输出 N长的 label Seq., 每个vector对应一个label.

  2. \(\large N:1\) 输入 N长 的 Vector Seq., 输出 unique label

  3. \(\large N:M\) 输入 N长 的 Vector Seq., 输出 M长(模型决定长度)的 Vector Seq.

    著名的 \(\large Seq2Seq\) \(\large Output\)模型. 经典应用是: Translation(机器翻译任务).

SciTech-BigDataAIML-LLM-Transformer Series-Input+Output-Sampling + Vectorize and Matrixize 不同类型的Input数据(Text/Picture/Audio/Video/Graph:如社交网与分子图)的更多相关文章

  1. read()、write()返回 Input/output error, Device or resource busy解决

    遇到的问题,通过I2C总线读.写(read.write)fs8816加密芯片,报错如下: read str failed,error= Input/output error! write str fa ...

  2. PHP-FPM-failed to ptrace(PEEKDATA) pid 123: Input/output error

    If you're running PHP-FPM you can see these kind of errors in your PHP-FPM logs. $ tail -f php-fpm.l ...

  3. NFS挂载异常 mount.nfs: Input/output error

    [root@localhost ~]# vi /etc/exports #增加/nfs 192.168.10.132(rw,no_root_squash,no_all_squash,async) [r ...

  4. BIOS(Basic Input/Output System)是基本输入输出系统的简称

    BIOS(Basic Input/Output System)是基本输入输出系统的简称 介绍 操作系统老师说,平时面试学生或者毕业答辩的时候他都会问这个问题,可见这个问题对于计算机专业的学生来说是如此 ...

  5. Angular 个人深究(三)【由Input&Output引起的】

    Angular 个人深究(三)[由Input&Output引起的] 注:最近项目在做别的事情,angular学习停滞了 1.Angular 中 @Input与@Output的使用 //test ...

  6. Docker 在转发端口时的这个错误Error starting userland proxy: mkdir /port/tcp:0.0.0.0:3306:tcp:172.17.0.2:3306: input/output error.

    from:https://www.v2ex.com/amp/t/463719 系统环境是 Windows 10 Pro,Docker 版本 18.03.1-ce,电脑开机之后第一次运行 docker ...

  7. dpdk EAL: Error reading from file descriptor 23: Input/output error

    执行test程序时输出: EAL: Error reading from file descriptor 23: Input/output error 原因: 在虚拟机添加的网卡,dpdk不支持导致的 ...

  8. html5 填表 表单 input output 与表单验证

    1.<output>     Js计算结果 <form oninput="res.value = num1.valueAsNumber*num2.valueAsNumber ...

  9. mount_cd9660:/dev/acd0: Input/output error

    mount -t cd9660 /dev/acd0 /cdrom g_vfs_done():acd0[READ(offset32768, length=204]error =5 mount_cd966 ...

  10. Input/output subsystem having an integrated advanced programmable interrupt controller for use in a personal computer

    A computer system is described having one or more host processors, a host chipset and an input/outpu ...

随机推荐

  1. 北京市第六届信息通信行业网络安全技能大赛(初赛)-CTF夺旗阶段 EZRSA writeup

    题目EZRSA EZRSA.py from Crypto.Util.number import * import gmpy2 from flag import m p = getPrime(1024) ...

  2. FHQ treap(无旋treap)

    平衡树 平衡树作为一种中级数据结构,有着广泛的使用场景.其平衡性的维护方式灵活多变,而其中的无旋treap更以简单著称 P3369 [模板]普通平衡树 题意: 需维护以下操作: 插入一个数 x. 删除 ...

  3. System.Runtime.Serialization.SerializationException:“二进制流“0”不包含有效的 BinaryHeader。这可能是由于无效流,或由于在序列化和反序列化之间的对象版本更改。

    var buffer = new byte[1024]; using (var ms = new MemoryStream(buffer)) { //xxx } 原因是buffer的长度过短,当接受到 ...

  4. SpringBoot性能优化的12个小技巧

    前言 不知道你在SpringBoot项目中,有没有遇到过下面这样的代码: @GetMapping("/orders") public List<Order> listO ...

  5. Spring 注解之 @MapperScan 和 @Mapper

    @Mapper注解 为了让别的类能够引用UserMapper,需要在UserMapper类上添加@Mapper注解: @Mapper public interface UserMapper { pub ...

  6. TPS和QPS的概念

    TPS    TPS:Transactions Per Second(每秒传输的事务处理个数),即服务器每秒处理完成的事务数.TPS包括一条消息入和一条消息出,加上一次用户数据库访问.    TPS是 ...

  7. selenium driver add_cookie正确姿势

    需求 seo给了个开发小需求,查询搜索引擎站点后台的索引量 需求分析 难点在于怎么绕过登录 技术选型 使用selenium+firefox+geckodriver执行抓取 技术难点解析 获取cooki ...

  8. 「Log」做题记录 2023.9.25-2023.10.29

    \(2023.9.25-2023.10.1\) \(\color{limegreen}{P3524}\) 考虑删掉两个不相连的点,这两个点必定一个在团内一个在团外,删掉 \(\frac{n}{3}\) ...

  9. Joomla设计理念探讨系列2 -程序员要如何用代码实现“白纸幻想”?

    客户幻想拖拖拽拽就建站?程序员连夜拆解出网格化背后的技术深渊. 1. 破灭的白纸幻想?不,是技术逻辑的碰撞 当客户兴奋地描述"白纸网格"时,程序员的第一反应往往是: "需 ...

  10. RAG越来越不准?一文详解元数据与标签的系统优化方法(附完整流程图+实用提示词)

    你是不是也遇到过这样的场景? 公司刚花大钱上线AI知识库,结果AI助手总是"答非所问",文档明明都上传了,关键时刻还是找不到想要的答案: 苦心搭了一两个月RAG系统,老板随便一问, ...