近日,一项名为ZeroSwot的新方法被提出,通过独特的技术,成功突破了语音和文本之间的差异以及数据缺乏等难题,实现了提高语音翻译准确度的目标。具体来说,ZeroSwot通过使用语音识别数据训练语音编码器,然后将其与...
Read More苹果推出了一款名为MGIE的开源AI模型,用于图像编辑,使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作,例如“使图像更亮”或“添加红色滤镜”。苹果表示,MGIE的目的是...
Read MoreRoblox开发了一种AI模型,能够实时翻译16种语言的文本聊天,以打破语言壁垒,增强用户参与度。该模型利用基于转换器的大型语言模型,在混合专家架构中实现了高效的资源利用,同时保持了其隐私和安全流程。
Read MoreMeta最近展示了一项新的技术,可以实现语音克隆和翻译的无缝衔接。该技术使用深度学习和自然语言处理等技术,可以在不改变说话者声音和语调的情况下,将一种语言翻译成另一种语言。这种技术将为多语种交流和语言学习...
Read More苹果公司发布了两篇论文,介绍了新的三维头像和高效语言模型推理技术,这些技术可以让AI系统在iPhone和iPad上运行。这些技术的引入将使iPhone和iPad变得更加智能,更加个性化。这意味着用户可以在他们的设备上运行更...
Read MoreGoogle推出了Imagen 2,这是一种增强的AI图像模型,可供经批准的Google Cloud Vertex AI用户使用,提供文本渲染,标志以及多语言翻译等新功能。Imagen 2可以通过Google Cloud的AutoML API和Vision API实现。该模型使...
Read MoreHumane的AI Pin是一款价值699美元的无屏可穿戴设备,由每月24美元的订阅服务提供支持,拥有创新的交互方式,可在T-Mobile的网络上提供语言翻译、AI辅助摄影和个人助手工具等功能。
Read More谷歌将用多模态AI模型Gemini取代PaLM 2,并将其引入Makersuite,提供图像和文本识别功能。该公司还拥有一个名为Stubbs的隐藏工具,使用户可以构建和启动AI生成的应用原型。Makersuite将很快完全支持语言翻译。
Read More