96006资源网
当前位置: 首页>科技资讯>昆仑万维发布“天工大模型4.0”4o版及实时语音助手Skyo:宣称能克服大模型幻觉

昆仑万维发布“天工大模型4.0”4o版及实时语音助手Skyo:宣称能克服大模型幻觉

时间:2024-12-01 22:07:56

人气:0

编辑:96006资源网

近日消息,昆仑万维正式对外宣布,推出了其最新的“天工大模型 4.0”4o 版(Skywork 4o)以及一款名为“实时语音对话助手 Skyo”的新产品。此次发布的 Skywork 4o 在原有基础上进行了多项优化和升级,旨在提供更高效、精准的服务。

昆仑万维发布“天工大模型4.0”4o版及实时语音助手Skyo:宣称能克服大模型幻觉

而“实时语音对话助手 Skyo”则是一款专注于提高人机交互体验的产品,能够广泛应用于客户服务、智能家居等多个场景,为用户提供更加自然流畅的对话体验。

据官方介绍,Skyo 作为一个智能语音互动产品,具备快速响应、多语言对话能力,它能够主动发起对话、实时打断,能够克服大模型的“幻觉”问题,在对话中回复真实内容。同时,Skyo 具备情感化反应和个性化声音定制功能。

“天工大模型 4.0”4o 版具备如下特征:

高效响应速度:通过端到端的语音对话建模,实现低延迟响应,接近人对话的思考问答时间。

支持实时打断:用户无需点击对话开始和结束的按钮,全双工系统支持聊天中任意打断。

情感理解与个性化记忆:能够理解用户的情绪并提供情感化回应,对话更具人性化。

可定制的声音风格:支持用户定制或挑选助手的音色和风格。

有能力支持多语言:根据用户需求在多语言之间切换,适应全球化应用场景。

Skyo 则具备如下特征:

1 秒内回复、聊天中可打断:依托全双工 + 低延时技术,系统能随时聊天和打断,带给用户更自然对话感。

主动交流:系统在检测到用户静默后,会主动发起聊天,并根据用户的历史偏好进行对偏好垂类的新闻进行语音播报。

持续长对话:可支持跟用户长时间对话互动,在用户休闲、健身、出行途中进行可持续陪伴,成为用户的个人互动播客。

情感反应:提供拟人化回复,会感受到用户情感进行回复。

质感音色:更自然、更逼真的声音表达,并且实现情感和语调的高度还原。

风格切换:支持用户定制声音风格,如选择专业新闻播报的男生音色、英姿飒爽的女生音色等。

强大的记忆功能:能够在对话中追踪并回忆用户的偏好和历史信息,以提升多次对话的准确度。

回复真实内容:具备实时资讯获知和知识拓展能力,与用户进行互动式交流。

昆仑万维发布“音疯AI”:革新音乐创作,搭载交易功能实现即时盈利

近日,昆仑万维科技股份有限公司宣布上线音乐创作平台——“音乐智匠AI”,该平台突破性地根据用户提供的文本创意,生成多样化的音乐作品,并且能够生成长达4分钟的完整曲目,有效应对用户对音乐作品长度的多样化需求。

昆仑万维发布“音疯AI”:革新音乐创作,搭载交易功能实现即时盈利

“音疯AI”平台以其先进的AI技术,为用户提供了一种全新的音乐创作体验。用户只需提供一段文本,AI即可将其转化为旋律和节奏,创作出具有个性化的音乐作品。此外,平台还提供了局部生成和延长功能,用户可以对某段旋律进行重写或延长,以获得更满意的音乐效果。

值得一提的是,音疯AI还推出了AI音乐交易商店,用户创作的音乐可以直接变现,实现了艺术创作与商业价值的结合。同时,平台还与快手等短视频平台合作,用户创作的音乐作品有机会被用于短视频制作,进一步扩大了音乐作品的传播范围。

音疯AI的推出,标志着AI技术在音乐创作领域的新突破,为用户提供了一个表达情感、分享创意的新渠道。随着平台功能的不断完善和新功能的陆续上线,音疯AI有望成为音乐爱好者和创作者的新宠。

革新智能交互界面:昆仑万维携手智源等机构共同推出“Cradle”计算机控制新框架

近日消息,一场科技界的盛事悄然上演,昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学以及北京大学等顶尖学术机构,共同揭开了名为“Cradle”的通用计算机控制框架的神秘面纱。这一创新成果标志着智能代理技术迈向了一个全新的高度,预示着未来人机交互模式的深刻变革。

革新智能交互界面:昆仑万维携手智源等机构共同推出“Cradle”计算机控制新框架

这一AI框架使智能体(AI Agent)能够无需特别训练,直接像人一样控制键盘和鼠标,与任意开闭源软件进行交互,不依赖任何内部API。Cradle是首个能够同时玩转多种商业游戏和操作各类软件应用的AI框架,其论文、项目和代码均已开源。

Cradle展示了在多款游戏中的卓越能力,包括在《荒野大镖客2》中完成长达40分钟的主线任务,在《星露谷物语》中清理农场和购物,在《城市天际线》中建造千人小镇,在《当铺人生2》中与客户讨价还价,以及在Chrome、Outlook、飞书等日常软件中的应用能力。它还能进行修图、剪辑视频等操作,成为一个全能的AI Agent。

Cradle由信息收集、自我反思、任务推断、技能管理、行动规划和记忆模块六个部分组成,通过合理封装和抽象原始输入输出,实现与电脑的交互。它使用屏幕显示的视频图像作为输入,提取文本和视觉信息进行决策,并输出控制键盘和鼠标的信号。Cradle的决策推理模块能够自发与软件交互并完成任务,通过反思过去、总结现在和规划未来的方式进行操作。

此外,Cradle在游戏和软件应用上的表现证明了其通用性,能够在多种风格和操作方式不同的游戏中完成复杂任务,在常用软件中执行各项任务,如下载论文、发送邮件、修图、剪辑视频等。Cradle还在具有挑战性的benchmark OSWorld上击败了使用真值标签的基线方法。

Cradle的发布为构建通用计算机控制智能体(GCC Agents)提供了新的可能性,推动了统一输入输出接口的发展,为未来智能体在不同环境中的交互和自我提升奠定了基础,为实现通用人工智能(AGI)迈出了重要一步。

相关推荐
热门应用排行榜
热门游戏排行榜
热门合集