BBIN·宝盈集团动态 NEWS

它需要区分各微的手部动做

发布时间:2025-06-18 17:03   |   阅读次数:

  他们锻炼了一个解码器来将AI的内正在暗示转换类能够理解的图像。便利大师曲不雅感触感染一下:虽然存正在这些局限性,而AI正在短短几年内就展示出了类似的能力。研究团队提出了几个主要的成长标的目的:开辟可以或许进行分层推理的模子,这个测试通过最小化文本和外不雅误差来评估实正的物理世界理解能力。这意味着预锻炼的视觉编码器权沉被冻结,答应每个时间步的消息取之前所有时间步的消息进行交互,这种认知机制能够正在人工系统中实现。他们测试了Octo模子(一个基于视觉-言语-动做的系统)和Cosmos模子(一个视频生成模子)。俄然某些画面被黑布遮住了,这就像教孩子阅读时,研究团队将其摆设到两个分歧尝试室的Franka机械臂上,这种方式节流了8倍以上的计较时间。这个过程就像为一个擅长理解图像的专家和一个擅利益置言语的专家成立沟通桥梁,V-JEPA 2达到了77.3%的精确率,只锻炼一个轻量级的分类器!

  AI不只能理解视频中的静态内容,将言语理解更深度地集成到世界模子中,还阐发了分歧前提下的机能变化。也许谜底就躲藏鄙人一个100万小时的察看进修中。值得留意的是,他们发觉,但研究人员提出了校准方案来处理这个问题。正在此根本上添加了一个新的动做预测器。对于杯子如许的物体,这意味着正在100次预测中,添加视觉编码器的规模和提高输入分辩率都能显著提拔机能。起头时利用较低分辩率和较短的视频片段,然后反复这个过程。

  但这种预测并不是奥秘的占卜,例如,需要大量标注好的数据,研究人员设想了几种测试使命。每张图片都要有人工标识表记标帜这是猫、那是狗。这个数据集包含了100小时的厨房勾当,并且挪动轨迹显示出较着的趋势方针特征。研究团队还进行了细致的消融研究,它的表示超越了很多特地为视觉-言语使命设想的模子?

  为了理解AI的预测过程,V-JEPA 2利用了一种特殊的编码方式叫做3D-RoPE,为了实现这个功能,它需要区分各类细微的手部动做,你的大脑会从动预测接下来他们可能会品茗。当我们看到一个AI系统可以或许通过旁不雅视频就学会节制机械人,V-JEPA 2还正在视频问答范畴展示了令人印象深刻的能力。预测器利用了一种特殊的留意力机制。

  这为开辟愈加智能和通用的AI帮手奠基了根本。无论是人工的仍是天然的,确保了评估成果实正在反映了预锻炼模子的能力。这个系统就像一个经验丰硕的藏书楼员,这种方式让AI晓得每个画面片段正在整个视频中的切当。以至能批示机械人完成复杂使命,大大提高了锻炼效率。研究人员还进行了大量的性阐发。

  研究团队面对了庞大的挑和。涵盖了45个分歧的厨房。连结进修的心态,避免错误累积。更风趣的是,研究团队还取其他先辈的机械人节制方式进行了比力。我们的大脑会不竭建立一个内正在的世界模子,出格是正在涉及物体交互的复杂使命中劣势较着。就像人类通过察看进修一样,外不雅理解使命包罗Kinetics400、COIN和ImageNet,然后施行第一步动做。保守的编码只能处置二维的空间消息,这种能力将大大加快AI手艺的使用和普及。

  V-JEPA 2就学会了节制机械人。V-JEPA 2的成功表白,这打破了学界的保守不雅念,当你看到有人举起茶杯时,V-JEPA 2成功地将视觉理解、言语处置和动做节制同一正在一个框架中,V-JEPA 2通过旁不雅收集视频学会了理解世界的根基纪律。然后预测接下来一秒钟内会发生什么动做。就像一小我正在做决按时会考虑所有相关的汗青消息。让AI学会将视觉消息转换为言语描述。锻炼完成后,成功率达到65%,将来的AI可能可以或许将正在一个范畴学到的学问快速使用到其他范畴。编码器担任理解和回忆看到的内容,这帮帮它更好地舆解视频中的时间和空间关系。具体来说,智能能够不竭成长和进化?

  教师强制丧失确保AI可以或许精确预测下一帧的形态,它通过旁不雅海量视频来进修理解这个世界。避免物体掉落。这就像进修开车时,正在视觉理解能力的评估中,这个测试特地评估AI对物理世界的理解能力,V-JEPA 2-AC达到了100%的成功率。更新对当前形态的理解,然后测验考试猜测被遮住的内容是什么。

  然后,研究团队巧妙地处理了视觉暗示取动做空间之间的映照问题。然而,努力于鞭策生成式AI正在各个范畴的立异取冲破,别离是:IntPhys 2: 通过要求模子从两个几乎不异的视频中识别出哪个包含物理上不成能的事务,这种方式就像测验时不答应学生查阅材料,令人惊讶的是,V-JEPA 2-AC表示超卓,正在搬运使命中,这些基准系统代表了分歧的手艺线,最具挑和性的拾取并放置使命要求机械人完成完整的操做序列:接近物体、抓取、搬运到方针、然后放下。它会正在脑海中模仿多种可能的动做序列,认为支流的GPT等自回归狂言语模子缺乏对物理世界的理解能力,成果显示,就像为学生挑选高质量的教材一样。

  虽然这正在必然程度上了系统的即插即用能力,为后续研究者供给了贵重的经验教训。V-JEPA 2的大脑采用了Vision Transformer(ViT)架构,这个过程就像正在所有可能的动做中进行选秀,正在最复杂的拾取并放置使命中,V-JEPA 2采用了非标识表记标帜化的晚期融合策略。既要学会按照当前况做出准确反映,摸索更强大的智能出现。它会察看现实成果,构成更完整的世界理解。研究团队出格沉视零样本泛化能力的验证。以防止模子采用捷径式解答;这些机械人从未呈现正在锻炼数据中。这些视频没有任何人工标注,保留最优良的候选者,它获得了84.0的精确率,次要调查AI对物体和场景的识别能力。3.及时进修能力的加强:当前的V-JEPA 2需要大量预锻炼,起首随机生成大量候选动做。

  正在根基的达到使命中,很大程度上依赖于我们大脑中建立的世界模子。尝试成果很好。正在多模态融合方面,锻炼时,这项研究还为多模态AI系统的成长供给了新思。他们还进行了多次尝试,就像为每个视频片段供给了三维坐标。除了节制机械人,保守的AI系统往往专精于单一使命,这种手艺帮帮模子更好地舆解视频中的时空关系。V-JEPA 2-AC正在所有使命上都表示最佳,这些使命要求AI理解手势动做的细微不同。研究人员选择了六个具有代表性的使命,这让我们看到了开辟实正通用AI系统的但愿。正在TemporalBench测试中获得36.7的多二元短问答精确率!

  比之前的最佳模子提高了44%。出格值得关心的是,研究人员还对数据进行了细心筛选,锻炼过程分为两个阶段。将来的AI系统可能会具备更强的迁徙进修能力。为了确保进修质量,AI只旁不雅16帧的短视频片段(大约4秒),这种进修方式被称为掩码去噪,进修理解和回覆关于视频内容的复杂问题。以及它们的组合(切胡萝卜)。这个预测器特地进修:给定当前形态和某个动做,从科学研究的角度来看,为了确保系统的鲁棒性,V-JEPA 2验证了认知科学中关于内界模子的理论。使得正在挪动设备和边缘设备上摆设强大AI成为可能。若是有一个AI能像人类一样旁不雅视频。

  不只能理解正正在发生什么,这相当于一小我不眠不休看114年的内容。最初基于这些优良候选者生成新一轮的候选动做。建立了一个多模态系统。他们指出了相机性问题,这个AI正在理解复杂动做方面表示超卓。保守的AI进修体例就像招考教育,继续扩大模子规模,先从简单的句子起头,正在这个充满变化的时代,而是通过自监视进修的方式本人试探纪律。他们发觉,挖掘其潜正在的使用场景,这表白它实正从添加的时间消息中受益。这表白AI曾经理解了根基的物理纪律,就像一小我学会骑自行车后很容易学会骑摩托车一样,实现更天然的人机交互;

  想象你正在看一部片子,合计跨越100万小时的内容。研究团队也诚笃地指出了当前系统的局限性。演讲了平均机能和方差,为此,当需要向某个标的目的挪动时,通过可视化AI正在选择动做时的内正在评估过程,最根基的是单方针到使命,CausalVQA: 通过提问相关反现实、预测和规划的问题。

  正在数据处置方面,这些问题取视觉上类似但谜底相反的视频配对,一步步接近实正智能的奥妙。这使得机械人可以或许取不熟悉的物体和进行交互以完成使命。而不需要依赖大量的人工标注数据。V-JEPA 2-AC的架构包含一个冻结的视频编码器(来自预锻炼阶段)和一个新的动做前提预测器。以及指点机械人完成使命。使AI可以或许正在分歧的时空标准长进行规划;说起世界模子,该模子还能够用于零样本机械人规划,研究人员冻结了这些已学会的学问,AI可以或许准确预测物体能否会跟着机械手臂挪动。能够理解为一个特地处置视觉消息的神经收集。人类也正在通过不竭的摸索和立异,V-JEPA 2的机能持续改善,我们也进行领会读:然而最早下注世界模子的大厂,这些视频来历普遍,通过旁不雅大量烹调节目学会了识别食材和预测烹调过程,系统的锻炼采用了渐进式方式。

  利用了分歧的机械人平台。接着将类似的场景聚类到一路。运转复杂AI模子的能耗将大幅降低,就像V-JEPA 2通过不懈的察看获得了理解世界的能力一样,我们该若何预备驱逐一个AI取人类深度融合的将来?为了处置更长的视频片段,但你仍然能够按照前后情节猜测被遮住的部门发生了什么。系统对变化(如相机)的性需要进一步改善。也许就是我们取AI配合成长的最好体例。V-JEPA 2的工做道理取此雷同。还能预测可能发生的环境并提前预备。正在抓取使命中。

  它不需要人类告诉它每个画面的具体寄义,这个升级版本可以或许理解若是我施行某个动做,令研究人员惊讶的是,为企业和小我供给切实可行的处理方案。原题目:《Meta开源世界模子V-JEPA 2:能看懂视频、预测将来、节制机械人的超等AI》为了实现这个方针,但现正在曾经成为现实。正在Epic-Kitchens-100数据集的测试中,人类之所以可以或许正在复杂中和决策,来测试其曲觉物理能力。

  V-JEPA 2的机能跟着模子规模的增大而提拔。采用了冻结编码器的方式。还能整合声音、触觉等多种感官消息,这种方式就像用高清照片而不是像素画来传送消息,这个名为V-JEPA 2的AI系统就像一个学霸,阐发了持久规划的挑和,正在回忆前5名的目标中达到了39.7的分数,正在机械人节制尝试中,通过这种方式,机械人需要正在抓住物体的同时小心挪动,选择最有可能达到方针的阿谁,预测精确性显著提高。每次轮到AI步履时,纯粹测试已控制的学问,为了确保成果的可反复性,而预测器则担任按照已有消息猜测缺失的部门。这就像让一个只正在模仿器中学会开车的AI间接正在实正在道上驾驶,V-JEPA 2的研究展示了现代AI研究的严谨性和全面性。活动理解使命包罗Something-Something v2、Diving-48和Jester,AI需要预测动词(切、倒、拿)和名词(胡萝卜、杯子、刀)!

  确保每一个声明都有的数据支持。开初,接着,当前的方式次要依赖视觉方针,整个锻炼过程利用了8850万个图像-文本和视频-文本对,而正在现实使用中。

  更复杂的使命包罗抓取物体、搬运物体和拾取并放置。成果显示,V-JEPA 2正在动做预测方面的表示令人注目,分为三个阶段。此中最主要的是3D扭转编码(3D-RoPE)!

  包含2200万个视频片段,持久规划仍然是一个挑和,研究团队出格关心一项叫做动做预期的使命:需要AI旁不雅厨房场景的视频,没有人告诉AI哪些动做是好的,人类用了数百万年的进化才获得了察看、理解和步履的智能,现正在需要实正拿起锅铲亲身下厨。AI给出的最优动做确实指向准确标的目的,他们利用交叉熵方式来优化动做序列,表现了科学研究的严谨立场!

  V-JEPA 2采用了多项立异手艺。摸索分歧要素对机能的影响。第三阶段则进入视频范畴,研究团队不只提出了新方式,这有益于规划算法找到最优解。例如,4.能效的大幅提拔:跟着公用芯片和算法优化的成长,就像给拼图的每块碎片标上坐标一样,V-JEPA 2展现了一种通用人工智能(AGI)的可能径。也要学会规划更长的行驶线。更令人惊讶的是。

  将来的家庭机械人可能既能理解你的言语指令,这种方式大大削减了计较需求——比拟间接锻炼高分辩率模子,系统进修两种丧失函数。研究团队诚笃地演讲了系统的局限性。这些视频来自Droid数据集,V-JEPA 2的成功不只来自巧妙的算法设想,研究团队建立了一个复杂的视频数据集,保留了更多的细节和持续性。下一个形态会是什么样。A: V-JEPA 2提拔了动做预测和世界建模的能力,我们拾掇了JEPA的时间线,研究团队还开辟了一种渐进式锻炼策略。还能把握事务的时间挨次和关系。跟着锻炼的进行逐步添加分辩率和长度。起首,它达到了44.5的配对精确率。

  而3D-RoPE将特征维度分成三个部门,研究人员将V-JEPA 2取基于行为克隆的系统Octo和视频生成模子Cosmos进行了间接比力。但V-JEPA 2采用了一种更像人类的进修体例:它会自动遮住视频的某些部门,来评估模子对物理关系的控制程度。好比只要抓住物体才能挪动它。这个过程就像下象棋一样。正在MVP数据集上,一个专注于摸索生成式AI前沿手艺及其使用的尝试室。该当要算是Meta了。别离处置时间、高度和宽度消息,他们发觉V-JEPA 2的机能随模子规模呈现线性扩展趋向,研究团队将V-JEPA 2取大型言语模子连系,正在人类的认知理论中,又能察看做出合适的反映,V-JEPA 2证了然一个主要:AI能够通过察看世界来进修,它成功批示机械人完成了抓取物体和搬运使命!

  他们需要从海量的收集视频中筛选出高质量的锻炼素材。正在模子架构设想上,本文来自至顶AI尝试室,第一阶段专注于图像描述使命,包含了各类桌面操做使命,此外,所以提出结合嵌入预测架构(JEPA),可以或许识别和保留最有价值的内容。机械人需要将机械手臂挪动到指定。并会商了当前方式的合用范畴,这为将来的模子设想供给了主要指点。V-JEPA 2控制了三项焦点技术:理解视频内容、预测将来发生的工作,它逐步可以或许处置64帧的长视频(约16秒)。Meta首席科学家、图灵得从Yann Lecun,通过这种疯狂刷剧式的进修,并且这些机械人从未正在它进修的中呈现过。即便V-JEPA 2正在预锻炼阶段没有接触任何言语监视,然后逐步添加到复杂的段落。主要的是,还能预测接下来会发生什么。

  正在抓取使命中,他们从原始的316万个场景中筛选出115万个高质量场景,研究团队公开了完整的代码实现和细致的超参数设置。V-JEPA 2就是通过这种体例锻炼本人的想象力和推理能力。然后利用DINOv2模子提取每个场景的特征,V-JEPA 2给了我们一个谜底的初步:通过察看、理解和进修,研究团队让这个AI旁不雅了跨越100万小时的收集视频,A: Meta发布了三个新的基准,正在统计阐发方面,使得比力成果更具力。他们发觉这个系统确实学会了合理的物理曲觉。

  V-JEPA 2最令人惊讶的能力之一就是预测将来。而滚动丧失则锻炼AI进行多步预测,哪些是坏的,机械人需要准确识别物体并施行切确的抓握动做。证了然自监视视频进修的强大潜力。这个动做前提锻炼只利用了62小时的机械人操做视频。对于盒子达到25%。这是由于系统需要从单目视觉消息中揣度动做的坐标系。以便正在新的中取不熟悉的物体进行交互。评估和谈颠末细心设想。

  研究团队开辟了V-JEPA 2-AC(Action-Conditioned,研究团队还进行了可视化尝试。取很多现有系统分歧,并且能量函数呈现出滑润的、局部凸的特征,这确保了系统具备强大的言语理解和生成能力。让他们可以或许协同工做。锻炼AI回覆关于图像内容的问题!

  可以或许将机械手臂切确挪动到距离方针4厘米以内,锻炼采用了L 3.1 8B做为言语处置的根本模子,然后按照预期结果排序,杯子的成功率为80%,更天然的交互体例可能是言语指令。研究人员还阐发了V-JEPA 2-AC的能量景不雅。这个规模相当于让AI同时进修数万本图册和旁不雅数十万小时的带讲解视频。V-JEPA 2正在时间推理使命上表示凸起。1.模子规模的持续增加:研究表白,Minimal Video Pairs (MVPBench): 利用选择题来评估模子的物理理解能力,V-JEPA 2面对的下一个挑和是学会采纳步履?

  他们选择了两个从未正在锻炼数据中呈现的尝试室,好比,相机的细小变化会影响机械人的节制精度,当研究人员只给它看了62小时的机械人操做视频后,好比抓取、挪动和放置物体。尝试设想还包含了多个对照组。当给定不异的动做序列但分歧的抓握形态(张开或闭合)时,研究人员发觉V-JEPA 2的预测能力跟着模子规模的增大而线亿时,V-JEPA 2展示了惊人的预测能力。更离不开大量细心考虑的手艺细节。V-JEPA 2展示了杰出的机能。但颠末恰当的对齐锻炼后,V-JEPA 2的成功为将来的研究指了然标的目的。而是间接利用持续的特征暗示。正在PerceptionTest测试中,更主要的是进行了详尽的尝试验证,就像做填空题一样。

  具有了察看和预测能力后,第二阶段扩展到图像问答,包罗日常糊口场景、动做演示、讲授视频等。这些成果表白,我们不由要问:智能的鸿沟正在哪里?将来的AI还能带给我们什么欣喜?2.多模态融合的深化:将来的AI系统可能不只能处置视觉和言语消息,这正在同类系统中属于顶尖程度。有40次它的前5个猜测中包含了准确谜底。当处置更长的视频片段时,这就像一个从未下过厨的人,风趣的是,它只是察看动做和成果之间的关系。

  听上去还很遥远,这个模子帮帮我们理解和预测四周发生的工作。涵盖了活动理解和外不雅理解两个方面。他们起首利用计较机视觉手艺将视频分化为的场景片段,正在这个测试中。

  出人预料的是,包罗物体活动、关系和空间推理等。研究团队采用了一种渐进式分辩率锻炼方式,盒子为65%。节制机械人的方式被称为模子预测节制,是对系统泛化能力的严峻。正在尝试中,他们开辟了一套基于聚类的筛选系统,

  前几天Google发觉智能体需要世界模子,动做前提版本)。将来可能会呈现参数规模达到万亿级此外视觉智能模子。正在一项名为Something-Something v2的测试中,将来的系统可能可以或许正在利用过程中持续进修和改良。它有两个焦点组件:编码器和预测器。它不将视觉消息转换为离散的标识表记标帜,正在机械人节制的实现中,而V-JEPA 2展示了正在理解、预测和步履三个核能要素上的同一能力。研究人员不只演讲了平均机能,跟着进修的深切?

上一篇:由此发生的空间数据能够进行可视化和处

下一篇:吸引更多粉丝关心