模型规模的相关内容 - 漫话开发者

2025-07-03 talkingdev

AI大模型训练成本突破千万美元级 2024年全球已追踪201个超大规模模型

Epoch AI最新研究显示，人工智能领域正经历前所未有的计算规模扩张。2024年全球已追踪到201个计算量超过10²³ FLOPs的AI大模型，较2017年仅有的2个实现指数级增长。尤其值得注意的是，以GPT-4为代表的顶尖模型已突破1...

2025-06-18 talkingdev

人工智能公司MiniMax在GitHub开源了其4560亿参数规模的推理模型M1，该模型采用创新的混合专家架构（MoE）并引入'闪电注意力'技术，实现百万token级别的超长上下文处理能力（相当于DeepSeek R1的8倍）。特别值得注意...

2025-06-09 talkingdev

苹果公司研究团队通过定制化谜题环境对大型推理模型(LRMs)进行了系统性评估，揭示了人工智能推理能力的重要局限性。研究发现，随着任务复杂度提升，LRMs会经历推理效能先上升后急剧下降的拐点现象，最终在高度复杂任...

2025-05-02 talkingdev

微软近日发布了Phi-4-reasoning系列变体，这一创新标志着小型语言模型（SLMs）在效率与复杂推理能力上的重大进展。Phi-4-reasoning通过算法优化和架构改进，在保持参数规模精简的同时，实现了接近大型语言模型（LLMs...

2025-04-15 talkingdev

近期，SilentView团队在GitHub开源了名为GigaTok的超大规模图像分词器项目，其参数量高达30亿（3B），在图像重建任务中展现出卓越性能。传统图像分词器在规模化过程中常面临性能崩溃问题，而GigaTok通过创新的解码器...

2025-03-24 talkingdev

近期，一项关于大语言模型（LLMs）的研究揭示了其在处理复杂提示时是否具备多跳推理能力——即连接多个知识片段的推理过程。研究发现，这种潜在的推理过程确实存在，尤其在初始步骤中表现明显。然而，模型对连接知识的...

2025-01-02 talkingdev

2023年的研究项目TinyStories提出一个引人入胜的问题：语言模型可以小到什么程度，还能流利地表达英语？随着人工智能技术的进步，人们对高效而准确的小型语言模型的兴趣日益增长。TinyStories的研究人员尝试通过缩小...

2024-07-22 talkingdev

根据最新的研究，更大规模的模型需要更大的词汇表。这项研究探讨了词汇规模的扩展定律，揭示了模型规模和词汇大小之间的关系。随着模型规模的增大，词汇表的规模也需要相应扩大。这是因为大型模型需要处理更多的情境...