时间:2024-12-19 13:05:06
人气:0
编辑:96006资源网
近日消息,Meta AI 宣布开源了一款名为 SPIRIT LM 的基础多模态语言模型。这款模型能够灵活地结合文本和语音,为音频和文本的多模态任务提供了前所未有的可能性。通过 SPIRIT LM,开发者和研究人员可以更轻松地开发出支持多模态交互的应用程序,如语音助手、虚拟角色等,显著提升了用户体验和技术应用的广度。
SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果!比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做语音分类,判断一段语音表达的是什么情绪。
更厉害的是,SPIRIT LM 还特别擅长“情感表达”! 它可以识别和生成各种不同的语音语调和风格,让 AI 的声音听起来更自然、更有感情。 你可以想象一下,用 SPIRIT LM 生成的语音,不再是那种冷冰冰的机器音,而是像真人说话一样,充满了喜怒哀乐!
为了让 AI 更好地“声情并茂”,Meta 的研究人员还专门开发了两个版本的 SPIRIT LM:
“基础版” (BASE):这个版本主要关注语音的音素信息,也就是语音的“基本构成”。
“表达版” (EXPRESSIVE):这个版本除了音素信息,还加入了音调和风格信息,可以让 AI 的声音更生动、更有表现力。
那么,SPIRIT LM 又是如何做到这一切的呢:
简单来说,SPIRIT LM 是基于 Meta 之前发布的超强文本大模型——LLAMA2训练出来的。 研究人员把大量的文本和语音数据“喂”给 LLAMA2,并采用了一种特殊的“交错训练”方法,让 LLAMA2能够同时学习文本和语音的规律。
为了测试 SPIRIT LM 的“情感表达”能力,Meta 的研究人员还专门设计了一个新的测试基准——“语音-文本情感保留基准” (STSP)。 这个测试基准包含了各种表达不同情感的语音和文本提示,用来测试 AI 模型是否能够准确地识别和生成相应情感的语音和文本。 结果表明,SPIRIT LM 的“表达版”在情感保留方面表现出色,是目前第一个能够跨模态保留情感信息的 AI 模型!
当然,Meta 的研究人员也坦言,SPIRIT LM 还有很多需要改进的地方。 比如,SPIRIT LM 目前只支持英文,未来还需要扩展到其他语言;SPIRIT LM 的模型规模还不够大,未来还需要继续扩大模型规模,提升模型性能。
SPIRIT LM 是 Meta 在 AI 领域的一项重大突破,它为我们打开了通往“声情并茂”的 AI 世界的大门。 相信在不久的将来,我们会看到更多基于 SPIRIT LM 开发的有趣应用,让 AI 不止能说会道,还能像真人一样表达情感,与我们进行更自然、更亲切的交流!
近日消息,Cloudflare最近公布,作为Meta公司核心合作伙伴之一,其Workers AI平台已迅速集成Meta新近披露的Llama3.18B模型。这意味着开发者能够抢在时间前沿,于模型发布的同日便着手应用这一尖端AI技术,为创新与效率开辟新径。
Llama3.1是Meta公司Llama系列模型的最新成员,以其在通用知识、可操控性、数学运算、工具使用和多语言翻译等方面的出色表现而闻名。此次更新的亮点包括:
更高的精度:模型采用了bfloat16格式,提升了计算精度。
函数调用功能:内置了函数调用(也称为工具调用)能力,允许模型生成结构化的JSON输出,可直接用于各种API。
多语言支持:新模型支持8种语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语,大大扩展了应用范围。
Cloudflare强调,他们致力于支持开源社区,并将这一理念延伸到了Workers AI产品中。公司表示,他们的目标是为开发者提供一流的开发体验和工具包,以帮助人们使用开源模型构建应用程序。
值得注意的是,在beta测试期间,开发者可以免费使用Llama3.18B模型。Cloudflare还推出了嵌入式函数调用功能,这使得开发者可以更高效地运行推理任务,减少手动请求的次数。
Cloudflare的这一举措不仅展示了他们对开源AI发展的支持,也为全球开发者提供了更多机会来探索和应用最新的AI技术。随着AI模型不断进化,我们可以期待看到更多创新应用的出现。
近日消息,Meta公司最新宣布,为其Quest 2、Quest 3以及高端的Quest Pro虚拟现实头戴设备推出了Quest HDMI Link应用程序。
这一创新应用使得用户能够通过有线方式,将智能手机、平板电脑及个人电脑上的内容直接投射到上述Quest系列设备上,极大丰富了用户的沉浸式体验场景与内容来源。
Meta 公司表示,任意支持 HDMI 和 DisplayPort 端口输出的设备,都可以通过 Quest HDMI Link 应用,将内容投屏到 Quest 头显设备中。
官方表示用户使用该有线投屏解决方案,可以最高 1080P 分辨率下运行游戏、观看视频,且延迟时间几乎为零。
注:Quest HDMI Link 软件还需要搭配额外的硬件,包括兼容 UVC 和 UAC 的采集卡和 USB 3.0 电缆。
微软与贝莱德携手:千亿美元豪赌未来,共筑AI数据中心能源基建新时代
强冷空气将影响我国大部,大部地区将有显著降温
大小: 36.80MB
大小: 0KB
影音播放
大小: 76.19MB
角色扮演
大小: 939.52MB
大小: 23.61MB
社交通讯
大小: 263.95MB
大小: 112.49MB
大小: 115.58MB
大小: 77.16MB
大小: 47.29MB
体育健身
大小: 32.03MB
地图导航
大小: 75.65MB
超车大师3D游戏
悦玩网络爆装传奇
闲置屠宰公司v1.1.66
升级加农炮
尸灵出笼
西部荒野幸存者
动作
格斗
街机
Meta推出全新音频大模型SPIRIT LM,让AI不仅会说话,更能“声情并茂”
时间:2024-12-19 13:05:06
人气:0
编辑:96006资源网
近日消息,Meta AI 宣布开源了一款名为 SPIRIT LM 的基础多模态语言模型。这款模型能够灵活地结合文本和语音,为音频和文本的多模态任务提供了前所未有的可能性。通过 SPIRIT LM,开发者和研究人员可以更轻松地开发出支持多模态交互的应用程序,如语音助手、虚拟角色等,显著提升了用户体验和技术应用的广度。
SPIRIT LM基于一个70亿参数的预训练文本语言模型,通过在文本和语音单元上进行持续训练,扩展到语音模态。它可以像文本大模型一样理解和生成文本,同时还能理解和生成语音,甚至可以把文本和语音混合在一起,创造出各种神奇的效果!比如,你可以用它来做语音识别,把语音转换成文字;也可以用它来做语音合成,把文字转换成语音;还可以用它来做语音分类,判断一段语音表达的是什么情绪。
更厉害的是,SPIRIT LM 还特别擅长“情感表达”! 它可以识别和生成各种不同的语音语调和风格,让 AI 的声音听起来更自然、更有感情。 你可以想象一下,用 SPIRIT LM 生成的语音,不再是那种冷冰冰的机器音,而是像真人说话一样,充满了喜怒哀乐!
为了让 AI 更好地“声情并茂”,Meta 的研究人员还专门开发了两个版本的 SPIRIT LM:
“基础版” (BASE):这个版本主要关注语音的音素信息,也就是语音的“基本构成”。
“表达版” (EXPRESSIVE):这个版本除了音素信息,还加入了音调和风格信息,可以让 AI 的声音更生动、更有表现力。
那么,SPIRIT LM 又是如何做到这一切的呢:
简单来说,SPIRIT LM 是基于 Meta 之前发布的超强文本大模型——LLAMA2训练出来的。 研究人员把大量的文本和语音数据“喂”给 LLAMA2,并采用了一种特殊的“交错训练”方法,让 LLAMA2能够同时学习文本和语音的规律。
为了测试 SPIRIT LM 的“情感表达”能力,Meta 的研究人员还专门设计了一个新的测试基准——“语音-文本情感保留基准” (STSP)。 这个测试基准包含了各种表达不同情感的语音和文本提示,用来测试 AI 模型是否能够准确地识别和生成相应情感的语音和文本。 结果表明,SPIRIT LM 的“表达版”在情感保留方面表现出色,是目前第一个能够跨模态保留情感信息的 AI 模型!
当然,Meta 的研究人员也坦言,SPIRIT LM 还有很多需要改进的地方。 比如,SPIRIT LM 目前只支持英文,未来还需要扩展到其他语言;SPIRIT LM 的模型规模还不够大,未来还需要继续扩大模型规模,提升模型性能。
SPIRIT LM 是 Meta 在 AI 领域的一项重大突破,它为我们打开了通往“声情并茂”的 AI 世界的大门。 相信在不久的将来,我们会看到更多基于 SPIRIT LM 开发的有趣应用,让 AI 不止能说会道,还能像真人一样表达情感,与我们进行更自然、更亲切的交流!
Meta旗舰AI模型Llama 3.1强势登陆Cloudflare Workers AI平台,开启云端智能新篇章
近日消息,Cloudflare最近公布,作为Meta公司核心合作伙伴之一,其Workers AI平台已迅速集成Meta新近披露的Llama3.18B模型。这意味着开发者能够抢在时间前沿,于模型发布的同日便着手应用这一尖端AI技术,为创新与效率开辟新径。
Llama3.1是Meta公司Llama系列模型的最新成员,以其在通用知识、可操控性、数学运算、工具使用和多语言翻译等方面的出色表现而闻名。此次更新的亮点包括:
更高的精度:模型采用了bfloat16格式,提升了计算精度。
函数调用功能:内置了函数调用(也称为工具调用)能力,允许模型生成结构化的JSON输出,可直接用于各种API。
多语言支持:新模型支持8种语言,包括英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语,大大扩展了应用范围。
Cloudflare强调,他们致力于支持开源社区,并将这一理念延伸到了Workers AI产品中。公司表示,他们的目标是为开发者提供一流的开发体验和工具包,以帮助人们使用开源模型构建应用程序。
值得注意的是,在beta测试期间,开发者可以免费使用Llama3.18B模型。Cloudflare还推出了嵌入式函数调用功能,这使得开发者可以更高效地运行推理任务,减少手动请求的次数。
Cloudflare的这一举措不仅展示了他们对开源AI发展的支持,也为全球开发者提供了更多机会来探索和应用最新的AI技术。随着AI模型不断进化,我们可以期待看到更多创新应用的出现。
Meta推《Quest HDMI Link》新应用:实现1080P无延迟有线连接至Quest头盔
近日消息,Meta公司最新宣布,为其Quest 2、Quest 3以及高端的Quest Pro虚拟现实头戴设备推出了Quest HDMI Link应用程序。
这一创新应用使得用户能够通过有线方式,将智能手机、平板电脑及个人电脑上的内容直接投射到上述Quest系列设备上,极大丰富了用户的沉浸式体验场景与内容来源。
Meta 公司表示,任意支持 HDMI 和 DisplayPort 端口输出的设备,都可以通过 Quest HDMI Link 应用,将内容投屏到 Quest 头显设备中。
官方表示用户使用该有线投屏解决方案,可以最高 1080P 分辨率下运行游戏、观看视频,且延迟时间几乎为零。
注:Quest HDMI Link 软件还需要搭配额外的硬件,包括兼容 UVC 和 UAC 的采集卡和 USB 3.0 电缆。
微软与贝莱德携手:千亿美元豪赌未来,共筑AI数据中心能源基建新时代
强冷空气将影响我国大部,大部地区将有显著降温
大小: 36.80MB
大小: 0KB
影音播放
大小: 76.19MB
角色扮演
大小: 939.52MB
大小: 23.61MB
社交通讯
大小: 263.95MB
社交通讯
大小: 112.49MB
大小: 115.58MB
影音播放
大小: 77.16MB
影音播放
大小: 47.29MB
体育健身
大小: 32.03MB
地图导航
大小: 75.65MB
超车大师3D游戏
悦玩网络爆装传奇
闲置屠宰公司v1.1.66
升级加农炮
尸灵出笼
西部荒野幸存者
动作
格斗
街机