漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-19 talkingdev

开源|大模型预训练的“模式跳跃”:语言模型如何从鹦鹉学舌到展现智能?

一项最新研究揭示了语言模型在预训练过程中的一个惊人现象:它们并非平稳地提升能力,而是在“模仿”和“智能行为”之间突然切换,研究人员将其称为“模式跳跃”。这种非连续性的行为转变无法通过标准的优化技术(如调整学...

Read More
2026-04-30 talkingdev

DeepSpeed整合AutoSP:自动序列并行技术,轻松训练超长上下文LLM

PyTorch官方博客近日发布了一项名为AutoSP的创新技术,该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码,用于长上下文大语言模型(LLM)的训练。AutoSP已与微软的DeepSpeed框架深度集成,使得开发者...

Read More
2026-04-30 talkingdev

OpenAI 转向灵活算力租赁,星际之门巨型数据中心计划名存实亡

据最新报道,OpenAI 已实质上放弃了最初雄心勃勃的“星际之门”(Stargate)自建超大规模数据中心集群计划。该计划最初宣称要建设20个巨型数据中心,但据报道,由于项目合作方在数据中心的最终控制权上无法达成一致,...

Read More
2025-12-19 talkingdev

开源|History LLMs:训练于1913年前文本的“历史专家”大语言模型项目引发热议

一个名为“History LLMs”的开源项目在技术社区引发了广泛关注。该项目旨在训练迄今为止规模最大的、专门基于1913年之前历史文本的大型语言模型。其核心构想是通过构建一个纯净的“前现代”语料库——即排除所有1913年之后...

Read More
2025-12-03 talkingdev

Mistral AI发布Mistral 3系列开源模型:含稀疏MoE巨兽与多款密集模型

人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型,该系列包含两大技术路线:一是三款不同规模的密集模型(参数规模分别为140亿、80亿和30亿),二是备受瞩目的Mistral Large 3稀疏混...

Read More
2025-10-21 talkingdev

开源|DeepSeek-OCR:突破长上下文压缩瓶颈,日生成20万页训练数据

DeepSeek-AI团队最新开源的DeepSeek-OCR项目在长上下文压缩技术领域实现重要突破。该项目通过创新的光学二维映射技术,探索将长文本上下文进行高效压缩的可行性。系统由DeepEncoder核心引擎和DeepSeek3B-Moe-A570M解...

Read More
2025-09-18 talkingdev

Upscale AI获超1亿美元种子轮融资,基于开放标准构建AI网络基础设施新范式

人工智能基础设施初创公司Upscale AI近日宣布完成超过1亿美元的种子轮融资,本轮由Mayfield和Maverick Silicon联合领投。该公司专注于开发基于开放标准的网络工具套件,旨在解决AI计算中日益严峻的网络瓶颈问题。随...

Read More
2025-09-17 talkingdev

开源|揭秘月之暗面Kimi K2如何实现万亿参数模型20秒高效RL更新

月之暗面(Moonshot AI)团队在其技术博客中详细披露了Kimi K2模型在强化学习训练领域的重大突破。该团队成功实现了对1万亿参数模型的RL参数更新仅需约20秒,这一突破性进展解决了强化学习端到端训练过程中的关键效率...

Read More
  1. Next Page