漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-28 talkingdev

通过街头霸王游戏测试基准语言模型

语言模型(LLMs)的实用性在于其速度、准确性以及遵循指令的能力。这三个特性使得通过文本输入控制的街头霸王模拟器成为了衡量不同模型在这三个方面表现的绝佳方式。GitHub上的一个项目通过这种方式为LLMs提供了一个...

Read More
2024-03-25 talkingdev

DeepGram推出Aura:实现低于250毫秒的低延迟文本转语音API

DeepGram公司近日推出了一项名为Aura的创新产品,这是一款文本转语音(TTS)API,其最引人注目的特性是拥有低于250毫秒的响应延迟时间。这一技术突破意味着用户可以在实时应用中获得更快的语音反馈,极大提升了交互...

Read More
2024-03-15 talkingdev

Snapchat开启“无限保存模式”,用户可保存消息

Snapchat正在试验“无限保存模式”,该模式将允许用户保存他们的直接消息。Snapchat的目标一直是保持短暂性,但这一变化表明公司正在寻找一种平衡方式,即使在消息被删除之后,用户仍然可以保留他们的对话记录。Snapch...

Read More
2024-03-04 talkingdev

Genie世界模型:可生成交互式环境

Google DeepMind的Genie是一个基础的世界模型,通过在互联网视频上进行训练,可以从合成图像、照片甚至草图中生成各种可玩(动作可控)的环境。该模型使用了深度强化学习和生成式建模技术,可以为游戏开发、虚拟现实...

Read More
2024-02-28 talkingdev

Litestar:打造高性能API的轻量级ASGI框架

据悉,Litestar是一款轻量级、灵活的ASGI框架,适用于构建高性能API。其优点在于提供了简洁的API并支持异步编程模型,还具有可扩展性、易用性和可读性等优秀特性。此外,Litestar还为开发人员提供了丰富的文档和示例...

Read More
2024-02-15 talkingdev

亚马逊发布史上最大的文本转语音AI模型,拥有“新兴能力”

亚马逊人工智能公司发布了最新的文本转语音模型——Big Adaptive Steamable TTS with Emergent abilities(BASE TTS),该模型拥有980万个参数,并具有新兴特性,可以自然地讲述甚至是复杂的句子。该模型是当前最大的...

Read More
2024-02-12 talkingdev

探究面向生物信息学的Mojo编程语言

Mojo是一种面向生物信息学的编程语言,旨在提供一个易于使用且功能强大的工具来处理大型生物数据集。该语言建立在Perl语言的基础上,为用户提供了一种更简洁,更易于阅读和维护的编程体验。与Perl相比,Mojo语言的语...

Read More
2024-02-08 talkingdev

MetaVoice-开源13亿文本到语音模型

Meta Voice 是一个小而强大的文本到语音模型,支持生成和语音克隆。该模型基于深度神经网络和自回归模型,可用于多种应用场景,如语音合成、语音助手等。此外,Meta Voice 还支持多种语言,包括英语、中文、日语等。...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page