腾讯“混元”AI大模型初次露脸

未知 2022-04-21 17:37

腾讯“混元”AI大模型初次露脸
 

4月21日,腾讯对外正式宣告,腾讯“混元”AI大模型在MSR-VTT,MSVD,LSMDC,DiDeMo和ActivityNet 五大跨模态视频检索数据集榜单中先后取得第一名的成绩,完成了该范畴的大满贯。

特别是在MSR-VTT榜单上,“混元”AI大模型将文字-视频检索精度提高到55%,领先第二名1.7%,位居职业第一。

图1:各模型办法在5个公开数据集上指标比照

据悉,这是腾讯初次对外披露“混元”AI大模型的研制进展,该模型包括但不限于:计算机视觉、自然语言处理、多模态内容了解、案牍生成、文生视频等多个方向的超大规模AI智能模型。“混元”AI大模型根据腾讯太极机器学习渠道进行研制,借助GPU算力,完成快速的算法迭代和模型练习。

近年来,图文及视频内容在互联网内容中所占份额不断提高,怎么更细粒度的了解视频内容,交融多个模态的特征信息,成为跨模态视频检索技能的“重中之重”,在AI范畴有深入研究的科技公司纷纷开端在该范畴布局和投入。

MSR-VTT、MSVD、 LSMDC、DiDeMo、ActivityNet是职业内最具权威性的五大跨模态视频检索数据集榜单,主办单位包括微软、加州大学伯克利、阿卜杜拉国王科技大学等,检索库涵盖了日常日子的许多场景,已经成为科技企业和研究机构展现AI大模型技能实力的重要的竞技场之一。

通过多年研究,腾讯广告多媒体AI团队以层次化、细粒度、高精度为目标,提出了“混元“跨模态视频检索AI大模型(简称HunYuan_tvr)。与业界其他大模型相比,团队创始了层级化跨模态技能,可将视频和文本等跨模态数据分别做拆解,通过类似度分析,综合考量并提取视频和文本之间层次化的语义相关。

图2:HunYuan_tvr模型架构示意图

这种“先分层、再相关、后检索”的交互办法,一方面可捕捉多模态(文字、视频)内部的细粒度语义信息,另一方面也能有用地检索跨模态数据间的相关性,然后大大提高了检索的准确度。

准确度的大幅提高代表国内涵多模态内容了解方面的技能研究取得了新突破,这意味着计算机将进一步贴近人类对视频内容的了解与认知才能。一起,“混元”AI大模型的优越性及泛化性得到了验证,将为AI学术研究和工业级使用带来更多长期价值。

目前,“混元“AI大模型已被广泛使用到广告创作、广告检索、广告引荐等腾讯业务场景中。一方面,该模型可以帮助广告创作者和腾讯渠道方猜测视频内容与顾客群体之间的爱好相关,提高创作效率;另一方面,可以有用提高广告引荐的精准度,让内容查找和匹配更加准确,有用优化用户体验。

 

标签