模型的相关内容 - 漫话开发者

2025-05-21 talkingdev

Google Meet推出实时语音翻译功能，DeepMind音频语言模型助力跨语言交流

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能，该功能基于DeepMind开发的先进音频语言模型，能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换，还...

2025-05-21 talkingdev

DeepSeek研究团队以DeepSeek-V3为案例，分享了大型语言模型（LLM）训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制（Multi-head Latent Attention）、专家混合系统（Mixture of Experts）、FP8...

2025-05-21 talkingdev

由François Chollet和ARC Prize团队推出的ARC-AGI-2基准测试，作为抽象推理领域的新一代评估标准，其难度较前代显著提升。初步测试结果显示，即便是最先进的AI系统也表现不佳，其中o3模型仅获得3%的准确率，远低于原...

2025-05-21 talkingdev

谷歌高被引研究员Kevin Murphy近期更新了其200页的强化学习权威教材，系统性地覆盖了从传统方法到直接偏好优化（DPO）、广义策略优化（GPRO）以及推理技术等最前沿进展。该教材作为领域内的标杆性文献，不仅整合了经...

2025-05-21 talkingdev

KumoRFM是一种预训练的关系型基础模型，其设计初衷是能够在任何数据库和预测任务上工作，而无需进行特定任务的训练。这一技术的突破性在于其通用性和适应性，能够显著降低企业在不同数据场景下部署AI模型的复杂性和...

2025-05-21 talkingdev

谷歌于12月启动封闭测试后，现已正式向公众发布其AI编程工具Jules。这款基于Gemini 2.5大模型构建的工具能够克隆整个代码仓库，并在开发者处理其他任务时自主完成编写测试、修复漏洞和构建新功能等工作。当前AI编程...

2025-05-21 talkingdev

在人工智能领域，通用大模型（LLMs）虽然功能强大，但对于特定任务而言，其庞大的计算资源消耗和较高的成本并不总是最优选择。为此，Fastino公司推出了专精任务的语言模型（TLMs），旨在为特定任务提供更高效、更精...

2025-05-20 talkingdev

在2025年谷歌I/O大会上，谷歌正式推出新一代生成式媒体模型Veo 3和Imagen 4，以及专为影视制作设计的新工具Flow。Veo 3作为视频生成模型的迭代版本，在动态细节和场景连贯性上实现突破；Imagen 4则进一步提升了文本...