星空app与 patch embedding 相加-🔥星空app官网版下载v.9.55.87-星空app

栏目分类

新闻资讯: 案例; 设计师; 在施工地; 别墅实施; 陈设; 新闻资讯; 关于我们

热点资讯

星空app南财全媒当天荐读｜解码10月信济数据；房产税收优惠

星空app当今股价上升的有181只-🔥星空app官网版下载v

星空体育官方登录同比下落99%）智通财经APP讯-🔥星空ap

你的位置：🔥星空app官网版下载v.9.55.87-星空app > 新闻资讯 > 星空app与 patch embedding 相加-🔥星空app官网版下载v.9.55.87-星空app

星空app与 patch embedding 相加-🔥星空app官网版下载v.9.55.87-星空app

发布日期：2024-11-27 02:39 点击次数：200

星空app与 patch embedding 相加-🔥星空app官网版下载v.9.55.87-星空app

Don ’ t look twice！星空app

把畅达相通的图像块同一成一个 token，就能让 Transformer 的视频生成速率大幅普及。

卡内基梅隆大学建议了视频生成模子加快行动Run-Length Tokenization（RLT），被 NeurIPS 2024 选为 Spotlight 论文。

在精度险些莫得赔本的前提下，RLT 不错让模子进修和推理速率双双普及。

一般情况下，欺诈 RLT，Transformer 视频模子的进修手艺可镌汰 30%，推理阶段提速率普及更是可达 67%。

关于高帧率和长视频，RLT 的后果愈加彰着，30fps 视频的进修速率可普及 1 倍，长视频进修 token 减少 80%。

比拟于传统的剪枝行动，RLT 能用更小的精度损特地现更好的加快后果。

有东谈主思到了电视剧中的指摘，合计这项谈论找到了在压缩空间中进行搜索的行动。

DeepMind 科学家 Sander Dieleman 则评价称，这项谈论是一种"非主流"（Off-the-grid）的调动行动，但比起其他复杂的非主流谈论，又显得异常莽撞。

重叠图像块合为一个 token

RLT 的中枢旨趣，是欺诈视频中存在无数手艺上重叠的图像块这一脾气，将重叠的图像块同一为一个 token 暗意。

这种情况下，还需要用一个位置编码来暗意这个 token 的长度，但 RLT 总体上减少了输入的 token 数目。

要思完成重叠 token 的修剪，最初要对视频进行分块。

具体来说，视频在空间和手艺维度上会被分离红固定大小的图像块，每个图像块的大小为 C × D_x × D_y × D_t，每个图像块齐对应一个空间 - 手艺位置。

（其中 C 是通谈数，D_x 和 D_y 是空间维度大小，D_t 是手艺维度大小。）

分离完成之后，需要比较手艺上相邻的图像块，判断它们是否相似，也便是是否需要同一。

关于手艺位置进出 1 的两个图像块 P_1 和 P_2，取 P_1 的第一帧和 P_2 的临了一帧，计较它们的 L1 距离。

若是距离小于一个预设的阈值 τ，就合计 P_1 和 P_2 是静态重叠的（阈值 τ 暗意允很多猛进程的相似性，建造与具体数据集无关）。

完成判别之后，重叠的图像块会被移除。

关于一串畅达的、两两之间齐是静态重叠的图像块，RLT 只保留第一个块对应的 token。

这一步是在 patch embedding 之前完成的，因此移除 token 不需要更动模子结构。

经过这一步，输入的 token 数目从 N_P 按捺到了 N_P ’（N_P ’≤ N_P）。

为了让同一后的 token 仍然或者响应竣工的视频信息，接下来要给每个 token 加上长度编码。

关于一个保留住来的 token，系统管帐算它所代表的原始 token 的长度 l_i，也便是它到下一个莫得被移除的 token 的距离。

长度信息 l_i 与 token 的空间 - 手艺位置 ( x，y，t ) 一齐，用一个可学习的长度编码矩阵映射成一个 d 维的 embedding 向量，与 patch embedding 相加，看成输入 token 的最终暗意。

临了只需要将惩办后的 token 序列输入到视频 Transformer 中，进行旧例的进修或推理进程。

不外需要闪耀的是，由于每个视频样本计较出的 token 数目 N_P ’不尽相通，样本之间可能有较大相反。

联系词圭臬的 Transformer 是按批次惩办固定长度的序列的。

为了能在一个批次中惩办多个长度不一的视频，RLT 罗致了一种称为" example packing "的行动，将这一批中通盘视频样本的 token 序列首尾承接，拼成一个超长的序列，看成 Transformer 的输入。

这么的话，Transformer 本体上是在惩办一个批次大小为 1、长度为通盘样本 token 数目之和的序列。

通过以上法子，RLT 或者去除视频中的很多冗余 token，在险些不赔本精度的情况下，大幅按捺内存占用和计较量，加快视频 Transformer 的进修和推理。

进修时长下跌 30%

在进修阶段，RLT 对 ViT-B 和 ViT-L 两种范围的模子齐有很好的加快后果。

在 Kinetics-400 上，ViT-BRLT 和 ViT-L 进修手艺分别从 14.4 小时和 21.6 小时，按捺到 10.2 小时和 15.4 小时，降幅均接近 30% 把握，精度赔本不越过 0.1 个百分点；

在 SSv2 上，两者的进修手艺分别从 10.1 和 15.2 小时，按捺到 7.2 和 10.8 小时，降幅也接近 30%，精度相同仅下跌 0.1 个百分点。

比拟之下，传统的剪枝行动 Token Merging 在精度下跌 0.1-0.5 个百分点的情况下，加快独一 10-20%。

在推理阶段，也不需要非常的进修，就不错将 RLT 看成现成的 tokenizer，达到很好的加快后果。

具体来说，RLT 能在险些不甩手精度的情况下（不越过 0.5 个百分点），将推理阶段的计较量和延长按捺 30-60%。

相同在 Kinetics-400 和 SSv2 上，关于 ViT-B 和 ViT-L，RLT 齐能带来 60% 以上的推理加快。

关于更大的 ViT-H，在 Kinetics-400 上，RLT 也能结束 45% 的加快后果。

终点地，作家还针对高帧率和永劫长视频数据集进行了测试，发现 RLT 带来的 token 下跌幅度比辞世俗数据积贮更高。

同期在高帧率数据集当中，RLT 或者在精度赔本相同低的情况下，结束更好的加快后果。

何况帧率越高后果也越彰着，关于 30fps 的视频，加快可达 100%。

论文地址：

https://arxiv.org/abs/2411.05222

代码：

https://github.com/rccchoudhury/rlt星空app

上一篇：星空app摇粒绒不论是在干燥也曾湿气的环境下-🔥星空app官网版下载v.9.55.87-星空app

下一篇：🔥星空app官网版下载v.9.55.87-星空app秘鲁东说念主民相配期待习近平主席的到来-🔥星空app官网版下载v.9.55.87-星空app