大模型训练的相关内容 - 漫话开发者

2026-07-18 talkingdev

中国日消耗AI令牌量飙升至140万亿，字节跳动员工月耗近10亿枚

中国国家数据管理局最新数据显示，2026年3月全国每日AI令牌消耗量已突破140万亿枚，较2025年12月的100万亿枚和2024年初的1000亿枚呈指数级增长。这一数字背后折射出中国科技巨头在人工智能领域的疯狂竞速，大模型训...

2026-07-15 talkingdev

据《华尔街日报》披露，阿联酋因在伊朗相关军事行动中为美国提供关键协助，获得了美国政府放宽人工智能芯片出口限制的回报。这一地缘技术交易使阿联酋主权AI机构G42得以在至少九个月内自由采购先进的美国AI芯片，不...

2026-07-13 talkingdev

一项新研究探索了利用稀疏技术高效训练大语言模型的方法，旨在显著减少算力开销的同时保持模型性能。该方案通过引入结构化稀疏与动态剪枝策略，在训练前期识别并冻结低重要性参数，使有效参数量呈指数级下降，从而降...

2026-05-19 talkingdev

一项最新研究揭示了语言模型在预训练过程中的一个惊人现象：它们并非平稳地提升能力，而是在“模仿”和“智能行为”之间突然切换，研究人员将其称为“模式跳跃”。这种非连续性的行为转变无法通过标准的优化技术（如调整学...

2026-04-30 talkingdev

PyTorch官方博客近日发布了一项名为AutoSP的创新技术，该技术旨在自动化地将标准Transformer训练代码转换为序列并行代码，用于长上下文大语言模型（LLM）的训练。AutoSP已与微软的DeepSpeed框架深度集成，使得开发者...

2026-04-30 talkingdev

据最新报道，OpenAI 已实质上放弃了最初雄心勃勃的“星际之门”（Stargate）自建超大规模数据中心集群计划。该计划最初宣称要建设20个巨型数据中心，但据报道，由于项目合作方在数据中心的最终控制权上无法达成一致，...

2025-12-19 talkingdev

一个名为“History LLMs”的开源项目在技术社区引发了广泛关注。该项目旨在训练迄今为止规模最大的、专门基于1913年之前历史文本的大型语言模型。其核心构想是通过构建一个纯净的“前现代”语料库——即排除所有1913年之后...

2025-12-03 talkingdev

人工智能领域迎来重要开源进展。Mistral AI正式发布了其新一代Mistral 3系列模型，该系列包含两大技术路线：一是三款不同规模的密集模型（参数规模分别为140亿、80亿和30亿），二是备受瞩目的Mistral Large 3稀疏混...