视觉的「」,已经发展到哪一步?丨现场直击

2024年美国时间6月17日至21日,IEEE国际计算机视觉与模式识别会议(CVPR)在美国西雅图召开。

如大家预料,视觉FoundationModel成为今年CVPR除自动驾驶、3D视觉等传统研究课题以外的核心会议主题。

此外,由于会议召开前后,国内快手「可灵」开放图生视频功能火爆出圈、Runway时隔一年推出新模型Gen-3Alpha,文生视频也成为CVPR2024的一大热词。

今年,CVPR的两篇最佳论文都颁给了AIGC。从论文接收数量的角度看,图像和视频合成与生成(Imageandvideosynthesisandgeneration)以329篇论文成功占据榜首。而文生视频也属于视觉FoundationModel的研究讨论范畴。

事实上,FoundationModel在人工智能领域的最早出圈就是在计算机视觉领域。

2021年8月,斯坦福大学百位学者联名发表FoundationModel综述,作者队列里就有多位计算机视觉领域的翘楚,如李飞飞、PercyLiang等。但OpenAI凭借一己之力,在自然语言处理领域的FoundationModel上率先弯道超车,通过堆参数量与拼算力,将语言大模型做到极致,语言基座模型的风头也在2023年一度盖过了视觉基座模型。

然而,由于Sora与可灵等工作的炫丽效果,CV领域内关于视觉「FoundationModel」的话题又重回牌桌。

在CVPR2024的大会现场,AI科技评论走访了多位从事过视觉基座模型的研究者,试图求解在现阶段领域内的专家人士如何看待「FoundationModel」。

我们发现:

1.视觉FoundationModel的研究思路也借鉴OpenAI的路线,将下一步重要突破放在如预测下一个visualtoken、扩大算力规模等思路上;

2.不止一位研究者认为,无论是语言还是视觉,FoundationModel的概念崛起后,AI已经从一个开放的研究问题变成了一条实实在在的「工业生产线」,研究员的目标只有两个——「搞数据」与「搞算力」;

3.「多模态」成为视觉基础模型研究的一门显学,但视觉与语言两派的合作通道仍未有效建立。

除了FoundationModel,我们也访谈了自动驾驶、3D视觉领域的相关人士。我们也发现,诸如CVPR等从论文接收截止到会议召开时间长度跨越半年的学术会议,或许已不再适用于跟踪如今变化万象、日新月异的研究成果。

当AI研究中工业界与产业界的隔阂越来越小、融合越来越多时,哪怕是一个传统的学术会议也要有跟上时代潮流的意识。

「FoundationModel」的瓶颈与突破

事实上,基于Transformer开发通用的视觉基础模型并不是2023年ChatGPT火起来后才有的研究思路。

国外从微软SwinTranformer到谷歌ViT,再到国内上海人工智能实验室的「书生」(Intern)系列,都很早开始了通用视觉智能的探索。只不过与BERT被GPT-3碾压的命运一样,它们都被后来出现的Sora光芒掩盖;同时,由于Sora的技术路径独辟蹊径,也开始学习Sora、借鉴Sora。

在今年的CVPR上,上海人工智能实验室的通用视觉团队(OpenGVLab)展示了他们最新的视觉多模态基础模型研究成果InternVL-1.5。该工作凭借强大的视觉编码器InternViT-6B、高动态分辨率,以及高质量双语数据集,在业内广受追捧。CMU、面壁智能等国内外的多个开源对比数据也表示,InternVL的效果名列前茅:

上海人工智能实验室OpenGVLab「书生」多模态大模型团队认为,视觉基础模型区别于以往工作的一个直接体现是多模态对话系统的构建。

InternVL-26B的研究始于2023年3月。此前,视觉基础模型的相关研究代表工作是OpenAI在2021年发表的CLIP。「CLIP作为古早的视觉基础模型,通过与BERT对齐,使ViT获得一定程度的语言表征对齐能力,但参数量只有300M左右,规模太小,且对齐的对象不是LLM。(多模态对话系统的构造)必须使用更多训练数据才能进行表征对齐。」

这启发了上海AILab团队开始研究InternVL。他们的目标是在保持基础模型强大性和多功能性的前提下,将其作为对话系统的backbone,既支持图像检测、分割,也能够像CLIP支持多模态任务,例如图文检索。最开始是研究了一个6 7的13B模型(即InternVL-Chat-V1.2),但由于在对话系统的实际应用中表现一般,又投入大量精力优化对话功能,又得出了一个26B模型,即风靡一时的InternVL-Chat-V1.5。

从InternVL-1.5技术报告得知,视觉基础模型研究的三个关键点是:

一,视觉模型必须接驳能力与之相媲美的语言模型。比如,他们一开始的7B语言模型无法充分发挥6B视觉模型的优势,但在他们将语言模型的规模扩大到20B后,问题得到了大幅改善。InternVL-Chat-V1.5采用的是书生·浦语的20B模型,使模型具备了强大的中文识别能力;二是要适配高分辨率;三是要采用高质量数据集。

在今年的CVPR上,GPT-4o团队作者首次公开分享了背后的技术路线:GPT-4o的文字转图像采用了DALL·E路线,文字转文字是GPT,文字转语音是TTS。InternVL研究员评价,GPT-4o注重不同模型间的跨模态转化,但InternVL的路线是专注于同一个模型上不同模态的输入与文本理解的输出。OpenAI路线并不是所有视觉FoundationModel研究的权威路线。

目前领域内有一种声音认为,视觉基础模型应具备更强的离散化特性,即各个模态(包括视觉、语音和3D输入)都转换为离散表示、而非高维向量,并将其存储在同一框架下,解耦对外感知侧模型和LLM大脑模型,如此一来,多模态更加统一,训练更加独立,不用再关注视觉模型是否传梯度。

对此,研究员认为,「这是对原生多模态支持的一种尝试,便于进行端到端的训练和跨模态能力的支持。离散压缩可能会损失一些细微但关键的信息,此技术路线还有很多关键问题有待探索。」

针对视觉基础模型的瓶颈与突破方向,思谋科技研究员、香港中文大学DVLab实验室成员张岳晨也提出了相似的看法。

他认为,目前视觉基础模型的难点主要在于大规模高质量数据如何收集和助力大规模的训练。不仅如此,视觉基础模型如何跳出模型输出语言的限制,支持原生多模态(如GPT-4o)也是接下来值得思考与研究的问题。

据雷峰网了解,目前DVLab自研的视觉基座Mini-Gemini在开源社区引起了广泛的关注和反响,一度保持SOTA的位置,获得了3k 的stars。在今年的CVPR上,贾佳亚DVLab团队的LISA模型、Video-P2P等工作也获得了高度评价。

而南洋理工大学副教授张含望则认为,在视觉基础模型的研究中,大家经常忽视“理解任务”和“生成”任务本质是互斥的问题:前者是要让大模型丢掉视觉信息,而后者是让大模型尽可能保留视觉信息。然而,在语言大模型当中,这种互斥现象确从来没存在过。

张教授认为,症结就在于目前visualtoken只是简单地把视觉信号“分块”,这种块状的空间序列和语言的“递归结构”是有本质区别。「如果不把图片或是视频变成递归序列token的话,是无法接入大语言模型的,而大语言模型是一个很重要的推理机器。但目前这一块,从行业来看,还没有特别好的研究成果出现,视觉的「」,已经发展到哪一步?丨现场直击未来值得加大投入研究力度。」

图注:「理解」与「生成」的区别,来自南洋理工大学张含望教授的分享

此外,不止一位研究者认为,无论是语言还是视觉,FoundationModel的概念崛起后,AI已经从一个开放的研究问题变成了一条实实在在的「工业生产线」,研究员的目标只有两个——「搞数据」与「搞算力」。

接近OpenAI的知情人士也称,一开始冲着OpenAI的AGI光环加入的顶级高校博士毕业生在加入研究后,也发生自己在实际研究中也更多扮演着螺丝钉般的角色,比如花大量的时间处理数据。一句逐渐在OpenAI内部成为经典的Slogan是:

Thereisnomagic。

自动驾驶、端侧AI

自动驾驶在今年的CVPR上占据了非常重要的位置,将语言大模型落地到自动驾驶是特色。

其中,核心就在于如何把大模型放到自动驾驶的场景中,因为驾驶需要理解环境、预测下一个时刻该如何前行,遇到边缘场景(cornercase)的时候能否确保安全性等,这些都是自动驾驶领域接下来要重点研究的方向。

今年自动驾驶的一个探索趋势就是,大语言模型为自动驾驶端到端技术的算法和infra提供了新的思路和解决方案。以仿真平台为例,之前的仿真平台,多半是以计算机图形学的能力去做固定引擎,从而生成仿真平台,今年就有多家公司通过生成式AI的方式去做仿真平台。

CVPR2024自动驾驶国际挑战赛是业界和学界都关注的重要赛事。该比赛由上海人工智能实验室联合清华大学、图宾根大学、美团等国内外高校和科技企业共同举办,围绕当前自动驾驶领域的前沿技术、实践落地场景难题等共设置了7大赛道,吸引了全球近500支队伍参赛。

挑战赛要求参赛者开发一个端到端的AV模型,使用nuPlan数据集进行训练,根据传感器数据生成行驶轨迹。据AI科技评论了解,端到端自动驾驶是今年7大赛道中竞争最为激烈的赛道之一,冠军来自于英伟达联合复旦大学的自动驾驶算法参赛团队,亚军则是来自中国的零一汽车自动驾驶研发团队。

英伟达的研究人员告诉雷峰网,L2 级别的端到端自动驾驶,其能力主要体现于两大板块,分别是Planning和Percetion。

在自动驾驶领域中非常重要的多模态数据集nuScenes,其中有93%的数据只是包含直行在内的简单驾驶场景,天然无法实现工业界产品级别的自动驾驶。这些场景多为自动跟车、自动泊车,以及静态环境信息,如交通标志、道路标示线、交通灯位置等。

Perception是自动驾驶系统中的感知部分,负责通过各种传感器来感知周围环境的能力。它相当于自动驾驶车辆的“眼睛”,为系统提供关于道路、车辆、行人、障碍物等元素的信息。而Planning模块相当于自动驾驶系统中的“大脑”,负责决策和规划车辆的行驶路径。它接收来自上游模块(如地图、导航、感知、预测)的信息,并在当前周期内进行思考并做出判断。

英伟达团队告诉雷峰网,他们所作出的创新在于,在边缘场景的数据量不足够的情况下,使用基于规则的专家(rule-basedexpert)作为教师,将规则知识蒸馏给神经网络规划器。“我们认为,即便在数据量足够多的情况下,这一方法也将使得神经网络规划器变得更具有解释性。”

除了这些热门话题,在CVPR现场,还有很多厂商带来了亮眼的技术与产品,苹果就是其中一家。

从去年开始,苹果对大模型的投入力度肉眼可见地加大,尤其是生成式人工智能(GenAI)。虽然本身并不是一家AI能力特别强大的公司,但不懈的努力追赶后,苹果已然成功从一个三流水平的AI玩家挤进了二流水平战队。

今年3月,苹果正式发布多模态LLM系列模型,并在论文《MM1:Methods,Analysis&InsightsfromMultimodalLLMPre-training》中,通过构建大模型MM1,阐述了多模态大模型预训练的方法、分析和见解,引起大众围观。

此次在CVPR大会上,论文的作者之一ZheGan现身大会论坛,系统介绍了苹果在更好地进行多模态大模型预训练所做的最新研究进展。他表示,大规模且与任务相关的数据对于训练高性能模型非常重要,因此,着重分析了如何通过基于模型的过滤和更多样化的数据源,来获得高质量的预训练数据。

据ZheGan介绍,在实验中,他们使用45%有字幕描述图像、45%交错图像文本和10%的纯文本数据混合,作为预训练的数据混合,并为了评估,在各种字幕和VQA数据集使用zero-shot(0-shot)和few-shot(4-shot和8-shot)。

实验结果表明,交错数据对于few-shot和纯文本性能至关重要,而字幕数据提高了zero-shot性能;纯文本数据有助于提高few-shot和纯文本性能;精心混合图像和文本数据可以实现最佳多模态性能,同时保持强大的文本理解能力;合成数据有助于few-shot学习。

另外,ZheGan表示,对于当前热门的MoE架构来说,可以在保持激活参数不变的情况下扩大模型总参数量,他们正在研究如何为多模态大模型设计更好的MoE架构。

写在最后

今年的CVPR是一场别开生面的盛会。

很多参会人员都向雷峰网表示,相较于往年,今年CVPR的AIGC元素异常浓厚,新技术、新产品接连涌现,让人印象深刻。但也有一些学者认为,还应该有更多更新的技术出现。

香港中文大学深圳(CUHKSZ)助理教授韩晓光参加完此次CVPR之后,认为CVPR的论文投稿时可以考虑设置两条轨道,一个是工程轨道,以效果作为动机驱动点,一个是研究轨道,专门以好奇心为驱动。两条轨道都应该需要有最佳论文奖项,Sora是他心里工程轨道的最佳研究,而今年的「GenerativeImageDynamics」则满足了他对最佳研究论文的想象。

「一直思考CV的未来是什么景象,斗胆预测(或者是一种希望)未来将from‘virtual’to‘physical’,可能以各种不同的形式。」韩晓光说道。

免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:2760375052

分享:

扫一扫在手机阅读、分享本文