WhisperSpeech是一种倒置Whisper技术实现的文本转语音系统。该系统目前仅在英语LibreLight数据集上进行了训练,但未来的版本将面向多种语言。在该仓库中提供了合成语音的示例。
Read MoreMeta最近展示了一项新的技术,可以实现语音克隆和翻译的无缝衔接。该技术使用深度学习和自然语言处理等技术,可以在不改变说话者声音和语调的情况下,将一种语言翻译成另一种语言。这种技术将为多语种交流和语言学习...
Read More近日,Potis AI在一场新品发布会上推出了一款基于人工智能技术的自动行为面试产品。该产品通过AI算法分析应聘者的语音、面部表情、姿态等信息,快速评估其职业素养、人际交往能力、团队协作能力等关键能力,大大提高...
Read More近日,一项关于单张图像快速重建3D模型的新技术取得了突破。该技术基于高斯飞溅技术,通过学习性技术将图像中的每个像素映射到一个3D高斯函数中,从而实现单张图像的3D重建。这一技术的创新点在于引入了“飞溅图像”,...
Read More研究人员已经设计出一种独特的圆形混合方法来解决创建无缝360度全景图像的长期难题。这种技术是他们从文本和单张图像生成全景图像的创新模型的关键特征。
Read MoreHumane公司推出了一款AI助手胸针,可通过磁性吸附于衣物上,搭载了GPT-4技术。与其他AI助手不同,Humane的AI助手胸针注重保护用户隐私,不会记录、共享或出售用户的数据。通过GPT-4技术,Humane的AI助手胸针可以实现...
Read More单个提示生成单个图像通常很好,但在生成视频时由于帧之间的时间变化而失败。 然而,更改文本时的一致性非常具有挑战性。 这项工作解决了这两个问题,并利用扩散技术实现了长达512帧的生成。
Read More