时间:2024-11-29 17:02:47
人气:0
编辑:96006资源网
近日消息,北京智源人工智能研究院携手上海交通大学、中国人民大学、北京大学以及北京邮电大学等多所高校,共同研发并推出了一款名为Video-XL的大规模超长视频理解模型。这一成果标志着在视频分析与理解领域取得了新的进展。
这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。
Video-XL利用语言模型(LLM)的原生能力,对长视觉序列进行压缩,保留了短视频理解的能力,并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡,仅需一块80G显存的显卡即可处理2048帧输入,对小时级长度视频进行采样,并在视频“海中捞针”任务中取得了接近95%的准确率。
Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值,成为长视频理解的得力助手。该模型的推出,标志着长视频理解技术在效率和准确性上迈出了重要一步,为未来长视频内容的自动化处理和分析提供了强有力的技术支持。
目前,Video-XL的模型代码已经开源,以促进全球多模态视频理解研究社区的合作和技术共享。
近日消息,北京智源人工智能研究院(BAAI)对外公告,正式启动全球首项融合文本生成视频能力的模型竞技评估平台——FlagEval大模型角斗场,为AI技术的创新与突破开启了全新的竞技舞台。
这一服务面向用户开放,覆盖了国内外约40款大模型,并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。FlagEval大模型角斗场的推出,不仅提供了简单理解、知识应用、代码能力、推理能力等多种预设问题的评测,还首次引入了主观倾向阶梯评分体系,以更精确地揭示模型性能差异。
该服务采取匿名机制进行评测,确保评测过程的公正性。用户可以通过网页端或国内首个移动端访问入口参与评测,体验高效的模型对战评测。FlagEval大模型角斗场的评分结果将即时公示,形成角斗场榜单,展现各模型的对战能力。
智源研究院表示,将对模型对战评测的全链路数据进行开源,以促进大模型评测生态的发展。FlagEval大模型角斗场的推出,进一步拓展了智源在模型评测领域的技术布局和工具方法的研发,为人工智能领域的研究和应用提供了新的测试和评估工具。
智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。
与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。
该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。
该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。
此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。
三星Galaxy Z系列新机价格上调,Flip 6起售价149万韩元,Fold 6逾222万韩元
华硕ROG幻16 Air锐龙版震撼发布:AMD Ryzen 9 HX 370携手RTX 4060,15999元起
大小: 36.80MB
大小: 0KB
影音播放
大小: 76.19MB
角色扮演
大小: 939.52MB
大小: 23.61MB
社交通讯
大小: 263.95MB
大小: 112.49MB
大小: 115.58MB
大小: 77.16MB
大小: 47.29MB
体育健身
大小: 32.03MB
地图导航
大小: 75.65MB
超车大师3D游戏
悦玩网络爆装传奇
闲置屠宰公司v1.1.66
升级加农炮
尸灵出笼
西部荒野幸存者
动作
格斗
街机
智源发布Video-XL大模型:实现小时级超长视频理解
时间:2024-11-29 17:02:47
人气:0
编辑:96006资源网
近日消息,北京智源人工智能研究院携手上海交通大学、中国人民大学、北京大学以及北京邮电大学等多所高校,共同研发并推出了一款名为Video-XL的大规模超长视频理解模型。这一成果标志着在视频分析与理解领域取得了新的进展。
这款模型是多模态大模型核心能力的重要展示,也是向通用人工智能(AGI)迈进的关键步骤。与现有多模态大模型相比,Video-XL在处理超过10分钟的长视频时,展现了更优的性能和效率。
Video-XL利用语言模型(LLM)的原生能力,对长视觉序列进行压缩,保留了短视频理解的能力,并在长视频理解上显示出了卓越的泛化能力。该模型在多个主流长视频理解基准评测的多项任务中均排名第一。Video-XL在效率与性能之间实现了良好平衡,仅需一块80G显存的显卡即可处理2048帧输入,对小时级长度视频进行采样,并在视频“海中捞针”任务中取得了接近95%的准确率。
Video-XL有望在电影摘要、视频异常检测、广告植入检测等应用场景中展现广泛的应用价值,成为长视频理解的得力助手。该模型的推出,标志着长视频理解技术在效率和准确性上迈出了重要一步,为未来长视频内容的自动化处理和分析提供了强有力的技术支持。
目前,Video-XL的模型代码已经开源,以促进全球多模态视频理解研究社区的合作和技术共享。
智源研究院公布FlagEval大模型竞技场:文生视频模型巅峰对决评测平台正式上线
近日消息,北京智源人工智能研究院(BAAI)对外公告,正式启动全球首项融合文本生成视频能力的模型竞技评估平台——FlagEval大模型角斗场,为AI技术的创新与突破开启了全新的竞技舞台。
这一服务面向用户开放,覆盖了国内外约40款大模型,并支持语言问答、多模态图文理解、文生图、文生视频等四大任务的自定义在线或离线评测。FlagEval大模型角斗场的推出,不仅提供了简单理解、知识应用、代码能力、推理能力等多种预设问题的评测,还首次引入了主观倾向阶梯评分体系,以更精确地揭示模型性能差异。
该服务采取匿名机制进行评测,确保评测过程的公正性。用户可以通过网页端或国内首个移动端访问入口参与评测,体验高效的模型对战评测。FlagEval大模型角斗场的评分结果将即时公示,形成角斗场榜单,展现各模型的对战能力。
智源研究院表示,将对模型对战评测的全链路数据进行开源,以促进大模型评测生态的发展。FlagEval大模型角斗场的推出,进一步拓展了智源在模型评测领域的技术布局和工具方法的研发,为人工智能领域的研究和应用提供了新的测试和评估工具。
智源研究院联合清华共同推出生成模型GeoDream,解决3D结构不一致性的问题
智源研究院是人工智能领域的新型研发机构,在近日,智源研究院联合清华和北邮团队推出text-to-3D生成模型 GeoDream,能够将输入的文字描述转化为高质量和多视角一致性的3D 资产。
与传统的方法不同,GeoDream 通过解耦的方式利用2D 和3D 先验,解决了3D 结构不一致性的问题,并支持导出高保真的 texture meshes 和高分辨率的渲染图片。
该模型还提供了 Uni3D metric,用于衡量3D 模型的语义一致性。GeoDream 的论文和代码已经开源,并已集成到 threestudio 等开源库中。
该模型的核心创新点在于使用 Multi-View Stereo 技术生成 Cost Volume 作为3D 先验,并通过 Variational Score Distillation 方法将2D 和3D 先验进行融合。
此外,GeoDream 还提供了新的量化指标和评价方法,以更好地度量和比较生成的3D 模型的质量。最后,GeoDream 展示了对复杂输入的生成结果,支持导出 meshes 和高分辨率 UV maps,方便后续的3D 创作和应用。
三星Galaxy Z系列新机价格上调,Flip 6起售价149万韩元,Fold 6逾222万韩元
华硕ROG幻16 Air锐龙版震撼发布:AMD Ryzen 9 HX 370携手RTX 4060,15999元起
大小: 36.80MB
大小: 0KB
影音播放
大小: 76.19MB
角色扮演
大小: 939.52MB
大小: 23.61MB
社交通讯
大小: 263.95MB
社交通讯
大小: 112.49MB
大小: 115.58MB
影音播放
大小: 77.16MB
影音播放
大小: 47.29MB
体育健身
大小: 32.03MB
地图导航
大小: 75.65MB
超车大师3D游戏
悦玩网络爆装传奇
闲置屠宰公司v1.1.66
升级加农炮
尸灵出笼
西部荒野幸存者
动作
格斗
街机