漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-05-21 talkingdev

Google Meet推出实时语音翻译功能,DeepMind音频语言模型助力跨语言交流

谷歌视频会议平台Google Meet近日宣布推出实时语音翻译功能,该功能基于DeepMind开发的先进音频语言模型,能够在翻译过程中保留说话者的声音、语调和表达方式。这一技术的突破性在于它不仅实现了语言的即时转换,还...

Read More
2025-05-21 talkingdev

[论文推荐]DeepSeek-V3训练内幕:揭秘硬件-模型协同设计突破性实践

DeepSeek研究团队以DeepSeek-V3为案例,分享了大型语言模型(LLM)训练中的硬件-模型协同设计创新成果。该研究通过多头部潜在注意力机制(Multi-head Latent Attention)、专家混合系统(Mixture of Experts)、FP8...

Read More
2025-05-21 talkingdev

[论文推荐]强化学习权威教材更新:涵盖传统方法到DPO、GPRO等前沿技术

谷歌高被引研究员Kevin Murphy近期更新了其200页的强化学习权威教材,系统性地覆盖了从传统方法到直接偏好优化(DPO)、广义策略优化(GPRO)以及推理技术等最前沿进展。该教材作为领域内的标杆性文献,不仅整合了经...

Read More
2025-05-21 talkingdev

Fastino推出TLMs:专精任务的语言模型,性能超越LLMs

在人工智能领域,通用大模型(LLMs)虽然功能强大,但对于特定任务而言,其庞大的计算资源消耗和较高的成本并不总是最优选择。为此,Fastino公司推出了专精任务的语言模型(TLMs),旨在为特定任务提供更高效、更精...

Read More
2025-05-20 talkingdev

[论文推荐]LLM安全评估系统的鲁棒性研究揭示重大漏洞

最新发表在arXiv的研究论文指出,基于大语言模型(LLM)的安全评估系统存在显著脆弱性。研究表明,这类系统的评估可靠性极易受到提示词敏感性和对抗性攻击的影响。该发现对当前快速发展的AI安全评估领域具有重要警示意...

Read More
2025-05-20 talkingdev

[开源]基于AWS低成本微调Qwen2.5B模型实现推理能力突破

GitHub最新开源项目展示了一种针对Qwen2.5B大语言模型的创新微调方案,该方案采用SFT(监督微调)结合GRPO(梯度反向传播优化)的混合训练框架,其技术路线受到DeepSeek R1架构启发,并针对AWS云平台进行了专项优化...

Read More
2025-05-19 talkingdev

ParScale开源LLM扩展范式-训练与推理并行计算

人工智能领域迎来重大技术突破,开源项目ParScale通过创新性地在大型语言模型(LLM)的训练和推理阶段同时应用并行计算技术,成功建立了第三种LLM扩展范式。这一技术突破解决了传统序列计算模式在超大规模模型应用中...

Read More
2025-05-19 talkingdev

[论文推荐]WavReward:基于音频语言模型的对话系统评估新方法

来自arXiv的最新研究论文提出了一种名为WavReward的创新评估系统,该系统基于音频语言模型,专门用于评估语音对话系统在认知和情感指标上的表现。WavReward通过在ChatReward-30K数据集上进行训练,该数据集包含了大...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page