当前位置：首页>科技资讯>智源发布Video-XL大模型：实现小时级超长视频理解

智源发布Video-XL大模型：实现小时级超长视频理解

时间：2024-11-29 17:02:47

人气：0

编辑：96006资源网

近日消息，北京智源人工智能研究院携手上海交通大学、中国人民大学、北京大学以及北京邮电大学等多所高校，共同研发并推出了一款名为Video-XL的大规模超长视频理解模型。这一成果标志着在视频分析与理解领域取得了新的进展。

这款模型是多模态大模型核心能力的重要展示，也是向通用人工智能（AGI）迈进的关键步骤。与现有多模态大模型相比，Video-XL在处理超过10分钟的长视频时，展现了更优的性能和效率。

Video-XL利用语言模型（LLM）的原生能力，对长视觉序列进行压缩，保留了短视频理解的能力，并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡，仅需一块80G显存的显卡即可处理2048帧输入，对小时级长度视频进行采样，并在视频“海中捞针”任务中取得了接近95%的准确率。

Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值，成为长视频理解的得力助手。该模型的推出，标志着长视频理解技术在效率和准确性上迈出了重要一步，为未来长视频内容的自动化处理和分析提供了强有力的技术支持。

目前，Video-XL的模型代码已经开源，以促进全球多模态视频理解研究社区的合作和技术共享。

智源研究院公布FlagEval大模型竞技场：文生视频模型巅峰对决评测平台正式上线

近日消息，北京智源人工智能研究院（BAAI）对外公告，正式启动全球首项融合文本生成视频能力的模型竞技评估平台——FlagEval大模型角斗场，为AI技术的创新与突破开启了全新的竞技舞台。

智源研究院公布FlagEval大模型竞技场：文生视频模型巅峰对决评测平台正式上线

这一服务面向用户开放，覆盖了国内外约40款大模型，并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。FlagEval大模型角斗场的推出，不仅提供了简单理解、知识应用、代码能力、推理能力等多种预设问题的评测，还首次引入了主观倾向阶梯评分体系，以更精确地揭示模型性能差异。

该服务采取匿名机制进行评测，确保评测过程的公正性。用户可以通过网页端或国内首个移动端访问入口参与评测，体验高效的模型对战评测。FlagEval大模型角斗场的评分结果将即时公示，形成角斗场榜单，展现各模型的对战能力。

智源研究院表示，将对模型对战评测的全链路数据进行开源，以促进大模型评测生态的发展。FlagEval大模型角斗场的推出，进一步拓展了智源在模型评测领域的技术布局和工具方法的研发，为人工智能领域的研究和应用提供了新的测试和评估工具。