96006资源网
当前位置: 首页>科技资讯>智源发布Video-XL大模型:实现小时级超长视频理解

智源发布Video-XL大模型:实现小时级超长视频理解

时间:2024-11-29 17:02:47

人气:0

编辑:96006资源网

近日消息,北京智源人工智能研究院携手上海交通大学、中国人民大学、北京大学以及北京邮电大学等多所高校,共同研发并推出了一款名为Video-XL的大规模超长视频理解模型。这一成果标志着在视频分析与理解领域取得了新的进展。

智源发布Video-XL大模型:实现小时级超长视频理解

这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。

Video-XL利用语言模型(LLM)的原生能力,对长视觉序列进行压缩,保留了短视频理解的能力,并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡,仅需一块80G显存的显卡即可处理2048帧输入,对小时级长度视频进行采样,并在视频“海中捞针”任务中取得了接近95%的准确率。

Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值,成为长视频理解的得力助手。该模型的推出,标志着长视频理解技术在效率和准确性上迈出了重要一步,为未来长视频内容的自动化处理和分析提供了强有力的技术支持。

目前,Video-XL的模型代码已经开源,以促进全球多模态视频理解研究社区的合作和技术共享。

智源研究院公布FlagEval大模型竞技场:文生视频模型巅峰对决评测平台正式上线

近日消息,北京智源人工智能研究院(BAAI)对外公告,正式启动全球首项融合文本生成视频能力的模型竞技评估平台——FlagEval大模型角斗场,为AI技术的创新与突破开启了全新的竞技舞台。

智源研究院公布FlagEval大模型竞技场:文生视频模型巅峰对决评测平台正式上线

这一服务面向用户开放,覆盖了国内外约40款大模型,并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。FlagEval大模型角斗场的推出,不仅提供了简单理解、知识应用、代码能力、推理能力等多种预设问题的评测,还首次引入了主观倾向阶梯评分体系,以更精确地揭示模型性能差异。

该服务采取匿名机制进行评测,确保评测过程的公正性。用户可以通过网页端或国内首个移动端访问入口参与评测,体验高效的模型对战评测。FlagEval大模型角斗场的评分结果将即时公示,形成角斗场榜单,展现各模型的对战能力。

智源研究院表示,将对模型对战评测的全链路数据进行开源,以促进大模型评测生态的发展。FlagEval大模型角斗场的推出,进一步拓展了智源在模型评测领域的技术布局和工具方法的研发,为人工智能领域的研究和应用提供了新的测试和评估工具。

智源研究院联合清华共同推出生成模型GeoDream,解决3D结构不一致性的问题

智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。

智源研究院联合清华共同推出生成模型GeoDream,解决3D结构不一致性的问题

与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。

该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。

该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。

此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。

相关推荐
热门应用排行榜
热门游戏排行榜
热门合集