漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-20 talkingdev

Nova-2,超能力语音转文本助力应用开发

全球最强大的语音转文本(STT)模型Nova-2已经来临。相较于其他选项,Deepgram的Nova-2提供了下一级的准确度和极速的速度,使得语音AI功能的快速实现成为可能。如果你想了解更多信息或者开始使用,现在注册就可以获得2...

Read More
2023-08-24 talkingdev

通过Deepgram的创业计划创建、启动和扩大语音启用应用

Deepgram的创业计划为初创企业提供了高达10万美元的信用额度,以使用最强大的语音转文本API。这个计划包括对话分离、智能格式化、多语言等功能,初创企业可以立即申请。通过Deepgram的创业计划,开发者可以创建和启...

Read More
2023-08-23 talkingdev

开源Whisper API:实现自我托管的语音转文本转录

近日,一个名为Whisper API的开源项目在GitHub上引起了广泛关注。该项目提供了一个自我托管的API,用于进行语音到文本的转录。这一切都是通过使用一个精心调整的Whisper自动语音识别模型来实现的。这个项目的出现将...

Read More
2023-05-30 talkingdev

Nvidia展示新技术,让你用自己的声音与AI游戏角色交流

Nvidia在2023年Computex展示了一项新的生成式AI技术,可以让人们用自己的声音与游戏角色进行对话。Nvidia Avatar Cloud Engine将在本地和云端运行,包括部署大型语言模型、语音转文本、文本转语音等工具。文章中提供...

Read More
2023-05-02 talkingdev

HuggingFace新版本Whisper速度提升70倍

- Whisper现已在Jax上运行,能够在短短几秒钟内转录1小时的音频。 - 该模型本身已经是最强大的语音转文本系统之一,现在加上了惊人的速度,使用起来几乎是不费吹灰之力。 - 尽管仍有缺点,但这是社区取得的卓越成果...

Read More