目前尚不清楚 Meta 将如何应对 Gschwandtner 的发现。该公司可能会在未来版本的 Quest 操作系统 Horizon OS 中使该方法失效。Gschwandtner 在社交媒体上公开喊话,希望与 Meta CEO Mark Zuckerberg 或 CTO Andrew Bosworth 通话,向他们展示该技术。
上个月,Bosworth 在接受采访时谈到了有意向让 Quest 开发者访问透视摄像头的想法,并表示 Meta 将“继续关注”该问题。相比之下,苹果仅向企业用户提供其 Vision Pro 头显的原始摄像头数据访问权限,并且仅限于非公开的内部应用。
Meta AI革新之作:大概念模型引领语言处理新时代
时间:2024-12-28 05:07:23
人气:0
编辑:96006资源网
近年来,大型语言模型(LLMs)在自然语言处理(NLP)领域取得了重大突破,被广泛应用于文本生成、摘要提取以及自动问答等多种场景。尽管如此,这些模型所采用的逐字预测的 token 级处理方式,在捕捉和理解复杂上下文时显得力不从心,容易导致输出结果的不一致性。
同时,将 LLMs 应用于多语言和多模态环境时,其计算开销和数据依赖性问题也日益凸显。为了克服这些挑战,Meta AI 研发出一种创新的方法——大概念模型(LCMs),旨在提供更为高效和灵活的自然语言处理解决方案。
大概念模型(LCMs)代表了传统 LLM 架构的一次重要转变。它们引入了两个重大创新:首先,LCMs 在一个高维嵌入空间中进行建模,而不是依赖于离散的 tokens。这一嵌入空间被称为 SONAR,旨在支持200多种语言和多种模态,包括文本和语音,提供语言和模态无关的处理能力。其次,LCMs 的设计允许在语义层面上无缝过渡,能够在不同语言和模态之间实现强大的零 - shot 泛化能力。
在 LCMs 的核心,存在概念编码器和解码器,这些组件将输入句子映射到 SONAR 的嵌入空间,并将嵌入解码回自然语言或其他模态。这些组件的冻结设计确保了模块化,方便在不重训整个模型的情况下扩展新语言或模态。
技术细节方面,LCMs 采用了层次化架构,模仿人类的推理过程,从而提升了长篇内容的一致性,同时能够在不干扰整体上下文的情况下进行局部编辑。通过采用扩散模型,LCMs 在生成过程中表现出色,这些模型基于前面的嵌入预测下一个 SONAR 嵌入。实验中,采用了单塔和双塔两种架构,其中双塔架构在上下文编码和去噪上分开处理,提高了效率。
实验结果显示,基于扩散的双塔 LCM 在多个任务中展现了竞争力,如多语言摘要任务中,LCMs 在零 - shot 情况下的表现优于基线模型,证明了它们的适应能力。同时,LCMs 在处理较短序列时也表现出高效性和准确性,相关度量指标的显著提升印证了这一点。
Meta AI 的大概念模型为传统 token 级语言模型提供了一种有前途的替代方案,通过高维概念嵌入和模态无关的处理,解决了现有方法的一些关键局限。随着对这一架构研究的深入,LCMs 有望重新定义语言模型的能力,为 AI 驱动的沟通提供更具可扩展性和适应性的方法。
Meta Quest 3头显透视漏洞曝光:开发者突破限制,计算机视觉模型成功运行
近日消息,一位富有创意的开发者成功破除了限制,实现了在Quest 3的透视摄像头中运行个性化的计算机视觉模型。这项技术突破使得设备能够实时分析并识别摄像头捕捉到的物体,极大地扩展了Quest 3的应用场景,为混合现实领域的交互与创新开辟了新径。
Meta 目前并不允许第三方开发者直接访问 Quest 系列头显的摄像头,然而 XRWorkout 健身应用的联合创始人兼首席开发者 Michael Gschwandtner 在社交媒体上发布了一段视频,展示了他成功绕过了这一限制。
演示视频中,开源的 MobileNet V2 目标检测模型以 0.75Hz 的帧率原生运行于 Quest 3 上。Gschwandtner 的应用构建了一个网页视图 (webview),即嵌入在应用内部的 Chromium 浏览器实例。该网页视图会自动加载支持 Quest 头显投屏的网址(oculus.com/casting),该网址可以让 Quest 头显将自身画面投送至其他设备。接下来,用户需要在该窗口内使用 Meta 账号进行完整登录。完成后,通过 Quest 系统菜单启动投屏功能。需要注意的是,这次的投屏并非投向另一台设备,而是从头显投向头显内部的同一个应用。
Gschwandtner 的应用随后会对接收投屏画面 (RenderTexture) 的 webview 进行像素内容采样,并可以根据需要进行进一步处理。在演示示例中,他将采样数据送入谷歌的 MediaPipe 设备端 SDK 进行处理。
该方法存在一个关键限制:投屏画面中除了透视摄像头画面之外,还包含虚拟物体和界面元素。这意味着该方法仅适用于透视画面占据大部分图像的情况。不过,Gschwandtner 表示他已为该限制设计了另一个变通方案。
目前尚不清楚 Meta 将如何应对 Gschwandtner 的发现。该公司可能会在未来版本的 Quest 操作系统 Horizon OS 中使该方法失效。Gschwandtner 在社交媒体上公开喊话,希望与 Meta CEO Mark Zuckerberg 或 CTO Andrew Bosworth 通话,向他们展示该技术。
上个月,Bosworth 在接受采访时谈到了有意向让 Quest 开发者访问透视摄像头的想法,并表示 Meta 将“继续关注”该问题。相比之下,苹果仅向企业用户提供其 Vision Pro 头显的原始摄像头数据访问权限,并且仅限于非公开的内部应用。
Meta推创新AI模型:Imagine Yourself,无需特定微调,个性化图像生成新纪元
近日,Meta公司近期在个性化图像生成领域迈出重要一步,推出名为“Imagine Yourself”的创新AI模型。这一模型致力于克服传统个性化图像生成中效率低与扩展性差的问题,它不再依赖于针对每位用户的繁琐调整。
传统个性化图像生成方法挑战
目前的个性化图像生成方法通常依赖于为每个用户调整模型,这种方法效率低下,而且缺乏通用性。虽然较新的方法试图在不进行调整的情况下实现个性化,但它们往往过度拟合,导致复制粘贴效应。
Imagine Yourself 创新
Imagine Yourself 模型不需要针对特定用户微调,通过单一模式能够满足不同用户的需求。
该模型解决了现有方法的不足之处,如倾向于毫无变化地复制参考图像,从而为更通用、更方便用户的图像生成流程铺平了道路。
Imagine Yourself 在保存身份、视觉质量和及时对齐等关键领域表现出色,大大优于之前的模型。
该模型的主要组成部分包括:
生成合成配对数据以鼓励多样性;
整合了三个文本编码器和一个可训练视觉编码器的完全并行注意力架构;
以及一个从粗到细的多阶段微调过程
这些创新技术使该模型能够生成高质量、多样化的图像,同时保持强大的身份保护和文本对齐功能。
Imagine Yourself 使用可训练的 CLIP 补丁编码器提取身份信息,并通过并行交叉注意模块将其与文本提示整合在一起,准确保存身份信息并对复杂的提示做出反应。
该模型使用低阶适配器(LoRA)仅对架构的特定部分进行微调,从而保持较高的视觉质量。
Imagine Yourself 的一个突出功能是生成合成配对(SynPairs)数据。通过创建包含表情、姿势和光照变化的高质量配对数据,该模型可以更有效地学习并产生多样化的输出结果。
值得注意的是,在处理复杂的提示词方面,与最先进的模型相比,它在文本对齐方面实现了 +27.8% 的显著改进。
研究人员使用一组 51 种不同身份和 65 个提示对 Imagine Yourself 进行了定量评估,生成了 3315 幅图像供人类评估。
该模型与最先进的(SOTA)adapter-based 模型和 control-based 模型进行了比对,重点关注视觉吸引力、身份保持和提示对齐等指标。
人工注释根据身份相似性、及时对齐和视觉吸引力对生成的图像进行评分。与 adapter-based 模型相比,Imagine Yourself 在提示对齐方面有了 45.1% 的显著提高,与基于控制的模型相比有了 30.8% 的提高,再次证明了它的优越性。
Imagine Yourself 模型是个性化图像生成领域的一大进步。该模型无需针对特定对象进行调整,并引入了合成配对数据生成和并行注意力架构等创新组件,从而解决了以往方法所面临的关键挑战。
联合国特发国际登月纪念邮票,共庆阿波罗11号55周年壮举
苹果2024秋季新品预览:M4芯片强势登陆,MacBook Pro、Mac mini与iMac革新登场
大小: 36.80MB
大小: 0KB
大小: 0KB
影音播放
大小: 76.19MB
角色扮演
大小: 939.52MB
大小: 23.61MB
社交通讯
大小: 263.95MB
社交通讯
大小: 112.49MB
大小: 115.58MB
影音播放
大小: 77.16MB
影音播放
大小: 47.29MB
体育健身
大小: 32.03MB
超车大师3D游戏
赛博朋克酒保行动
悦玩网络爆装传奇
王者修仙
闲置屠宰公司v1.1.66
升级加农炮
动作
格斗
街机