漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-26 talkingdev

Character Voice:让每个角色都有声音

Character Voice是一套功能,使用户能够在一对一聊天中听到角色对他们说话,将Character.AI体验提升到一个新的层次。这是公司构建多模态界面计划的第一步,该界面将促进更无缝、直观和引人入胜的互动体验。多模态界...

Read More
2024-02-27 talkingdev

GeneOH-改进后的手部-物体交互技术

GeneOH扩散技术是一种新的技术,它通过改正手部动作和与物体的关系中的错误来提高模型对物体的理解和交互。这种方法专注于使这些交互更加自然。

Read More
2024-01-29 talkingdev

SpeechGPT:高质量语言和声音合成新能力

近日,研究人员推出了一种名为SpeechGPT-Gen的新语音合成模型,该模型能够高效地处理语言和声音特性的复杂性。SpeechGPT-Gen是一种基于GPT-2架构的语音合成模型,通过对大量语言数据进行训练,使得模型能够预测下一...

Read More
2024-01-09 talkingdev

论文:基于级联扩散模型的文本驱动人体动作合成技术

近日,一种名为GUESS的框架被引入,用于从文本中创建人体动作。该框架将复杂的人体姿态简化为各个层次上的更抽象形式,从而使从文本合成动作更加简洁稳定。

Read More
2023-09-18 talkingdev

一键动图技术开源,点击即可看到你的图像动起来!

生成动态技术结合了现代和经典的人工智能技术,能够在静态图像中合成运动。更为重要的是,这种技术具有完全的交互性。用户只需要简单的点击操作,就可以看到自己的图像动起来,为静态的图像注入了生命力。这种技术的...

Read More