漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-21 talkingdev

论文:零数据训练,成功突破语音翻译难题

近日,一项名为ZeroSwot的新方法被提出,通过独特的技术,成功突破了语音和文本之间的差异以及数据缺乏等难题,实现了提高语音翻译准确度的目标。具体来说,ZeroSwot通过使用语音识别数据训练语音编码器,然后将其与...

Read More
2024-02-14 talkingdev

苹果推出MGIE,一款革命性的AI模型,用于基于指令的图像编辑

苹果推出了一款名为MGIE的开源AI模型,用于图像编辑,使用多模态大语言模型来解释文本指令并执行像素级编辑。这种模型可以将人类语言翻译成图像编辑操作,例如“使图像更亮”或“添加红色滤镜”。苹果表示,MGIE的目的是...

Read More
2024-02-07 talkingdev

Roblox发布实时AI聊天翻译器,打破语言壁垒

Roblox开发了一种AI模型,能够实时翻译16种语言的文本聊天,以打破语言壁垒,增强用户参与度。该模型利用基于转换器的大型语言模型,在混合专家架构中实现了高效的资源利用,同时保持了其隐私和安全流程。

Read More
2024-01-17 talkingdev

Meta新技术,实现语音克隆和翻译无缝衔接

Meta最近展示了一项新的技术,可以实现语音克隆和翻译的无缝衔接。该技术使用深度学习和自然语言处理等技术,可以在不改变说话者声音和语调的情况下,将一种语言翻译成另一种语言。这种技术将为多语种交流和语言学习...

Read More
2023-12-25 talkingdev

苹果最新AI研究或将完全改变您的iPhone

苹果公司发布了两篇论文,介绍了新的三维头像和高效语言模型推理技术,这些技术可以让AI系统在iPhone和iPad上运行。这些技术的引入将使iPhone和iPad变得更加智能,更加个性化。这意味着用户可以在他们的设备上运行更...

Read More
2023-12-15 talkingdev

Google推出Imagen2,提供文本和标志生成功能

Google推出了Imagen 2,这是一种增强的AI图像模型,可供经批准的Google Cloud Vertex AI用户使用,提供文本渲染,标志以及多语言翻译等新功能。Imagen 2可以通过Google Cloud的AutoML API和Vision API实现。该模型使...

Read More
2023-11-16 talkingdev

Humane的AI Pin:699美元的无屏可穿戴设备

Humane的AI Pin是一款价值699美元的无屏可穿戴设备,由每月24美元的订阅服务提供支持,拥有创新的交互方式,可在T-Mobile的网络上提供语言翻译、AI辅助摄影和个人助手工具等功能。

Read More
2023-10-25 talkingdev

谷歌AI产品泄密:多模态Gemini和革命性应用原型设计功能Stubbs

谷歌将用多模态AI模型Gemini取代PaLM 2,并将其引入Makersuite,提供图像和文本识别功能。该公司还拥有一个名为Stubbs的隐藏工具,使用户可以构建和启动AI生成的应用原型。Makersuite将很快完全支持语言翻译

Read More
  1. Next Page