Don ’ t look twice!星空app
把畅达相通的图像块同一成一个 token,就能让 Transformer 的视频生成速率大幅普及。
卡内基梅隆大学建议了视频生成模子加快行动Run-Length Tokenization(RLT),被 NeurIPS 2024 选为 Spotlight 论文。
在精度险些莫得赔本的前提下,RLT 不错让模子进修和推理速率双双普及。
一般情况下,欺诈 RLT,Transformer 视频模子的进修手艺可镌汰 30%,推理阶段提速率普及更是可达 67%。
关于高帧率和长视频,RLT 的后果愈加彰着,30fps 视频的进修速率可普及 1 倍,长视频进修 token 减少 80%。
比拟于传统的剪枝行动,RLT 能用更小的精度损特地现更好的加快后果。
有东谈主思到了电视剧中的指摘,合计这项谈论找到了在压缩空间中进行搜索的行动。
DeepMind 科学家 Sander Dieleman 则评价称,这项谈论是一种"非主流"(Off-the-grid)的调动行动,但比起其他复杂的非主流谈论,又显得异常莽撞。
重叠图像块合为一个 token
RLT 的中枢旨趣,是欺诈视频中存在无数手艺上重叠的图像块这一脾气,将重叠的图像块同一为一个 token 暗意。
这种情况下,还需要用一个位置编码来暗意这个 token 的长度,但 RLT 总体上减少了输入的 token 数目。
要思完成重叠 token 的修剪,最初要对视频进行分块。
具体来说,视频在空间和手艺维度上会被分离红固定大小的图像块,每个图像块的大小为 C × D_x × D_y × D_t,每个图像块齐对应一个空间 - 手艺位置。
(其中 C 是通谈数,D_x 和 D_y 是空间维度大小,D_t 是手艺维度大小。)
分离完成之后,需要比较手艺上相邻的图像块,判断它们是否相似,也便是是否需要同一。
关于手艺位置进出 1 的两个图像块 P_1 和 P_2,取 P_1 的第一帧和 P_2 的临了一帧,计较它们的 L1 距离。
若是距离小于一个预设的阈值 τ,就合计 P_1 和 P_2 是静态重叠的(阈值 τ 暗意允很多猛进程的相似性,建造与具体数据集无关)。
完成判别之后,重叠的图像块会被移除。
关于一串畅达的、两两之间齐是静态重叠的图像块,RLT 只保留第一个块对应的 token。
这一步是在 patch embedding 之前完成的,因此移除 token 不需要更动模子结构。
经过这一步,输入的 token 数目从 N_P 按捺到了 N_P ’(N_P ’≤ N_P)。
为了让同一后的 token 仍然或者响应竣工的视频信息,接下来要给每个 token 加上长度编码。
关于一个保留住来的 token,系统管帐算它所代表的原始 token 的长度 l_i,也便是它到下一个莫得被移除的 token 的距离。
长度信息 l_i 与 token 的空间 - 手艺位置 ( x,y,t ) 一齐,用一个可学习的长度编码矩阵映射成一个 d 维的 embedding 向量,与 patch embedding 相加,看成输入 token 的最终暗意。
临了只需要将惩办后的 token 序列输入到视频 Transformer 中,进行旧例的进修或推理进程。
不外需要闪耀的是,由于每个视频样本计较出的 token 数目 N_P ’不尽相通,样本之间可能有较大相反。
联系词圭臬的 Transformer 是按批次惩办固定长度的序列的。
为了能在一个批次中惩办多个长度不一的视频,RLT 罗致了一种称为" example packing "的行动,将这一批中通盘视频样本的 token 序列首尾承接,拼成一个超长的序列,看成 Transformer 的输入。
这么的话,Transformer 本体上是在惩办一个批次大小为 1、长度为通盘样本 token 数目之和的序列。
通过以上法子,RLT 或者去除视频中的很多冗余 token,在险些不赔本精度的情况下,大幅按捺内存占用和计较量,加快视频 Transformer 的进修和推理。
进修时长下跌 30%
在进修阶段,RLT 对 ViT-B 和 ViT-L 两种范围的模子齐有很好的加快后果。
在 Kinetics-400 上,ViT-BRLT 和 ViT-L 进修手艺分别从 14.4 小时和 21.6 小时,按捺到 10.2 小时和 15.4 小时,降幅均接近 30% 把握,精度赔本不越过 0.1 个百分点;
在 SSv2 上,两者的进修手艺分别从 10.1 和 15.2 小时,按捺到 7.2 和 10.8 小时,降幅也接近 30%,精度相同仅下跌 0.1 个百分点。
比拟之下,传统的剪枝行动 Token Merging 在精度下跌 0.1-0.5 个百分点的情况下,加快独一 10-20%。
在推理阶段,也不需要非常的进修,就不错将 RLT 看成现成的 tokenizer,达到很好的加快后果。
具体来说,RLT 能在险些不甩手精度的情况下(不越过 0.5 个百分点),将推理阶段的计较量和延长按捺 30-60%。
相同在 Kinetics-400 和 SSv2 上,关于 ViT-B 和 ViT-L,RLT 齐能带来 60% 以上的推理加快。
关于更大的 ViT-H,在 Kinetics-400 上,RLT 也能结束 45% 的加快后果。
终点地,作家还针对高帧率和永劫长视频数据集进行了测试,发现 RLT 带来的 token 下跌幅度比辞世俗数据积贮更高。
同期在高帧率数据集当中,RLT 或者在精度赔本相同低的情况下,结束更好的加快后果。
何况帧率越高后果也越彰着,关于 30fps 的视频,加快可达 100%。
论文地址:
https://arxiv.org/abs/2411.05222
代码:
https://github.com/rccchoudhury/rlt星空app