语言模型的相关内容 - 漫话开发者

2025-02-28 talkingdev

CoT-UQ框架：为大型语言模型引入链式思维不确定性量化

近日，GitHub上发布了一个名为CoT-UQ的创新框架，该框架旨在为大型语言模型（LLM）提供响应层面的不确定性量化。CoT-UQ通过集成链式思维（Chain-of-Thought, CoT）推理，能够更精确地评估模型在生成响应时的置信度。...

2025-02-27 talkingdev

微软近日发布了两款全新的开源语言模型Phi-4-mini和Phi-4-multimodal，这两款模型在硬件效率和多模态处理方面表现出色。其中，Phi-4-mini拥有38亿参数，专注于文本任务；而Phi-4-multimodal则具备56亿参数，能够处理...

2025-02-27 talkingdev

近日，SubPOP发布了一个大规模数据集，专门用于微调LLM（大语言模型），以预测调查响应分布。该数据集通过减少预测差距，显著提升了模型在未见过的调查数据上的泛化能力。这一技术突破为公众意见预测提供了更精准的...

2025-02-27 talkingdev

近期，一项针对OpenAI的o1/o3和DeepSeek的R1等推理型LLM的研究揭示了这些模型在逐步逻辑推理能力方面的表现。研究通过对比人类认知能力，对这些模型进行了基准测试。结果显示，尽管LLM在复杂任务中表现出色，但在需...

2025-02-26 talkingdev

近日，一个名为'LLM plays Pokémon'的开源项目在技术社区引发了广泛关注。该项目利用LLM（大型语言模型）技术，成功实现了AI自主玩转经典游戏《Pokémon》。通过结合LoRA（低秩适应）和RAG（检索增强生成）等技术，该...

2025-02-26 talkingdev

近日，EmbodiedEval作为一种全面且交互式的基准测试工具正式亮相，旨在评估多模态大语言模型（MLLMs）在具身任务中的表现。具身任务是指模型需要在物理环境中执行具体操作的任务，这对模型的感知、推理和执行能力提...

2025-02-26 talkingdev

科技界瞩目的人工智能公司DeepSeek正加快步伐，提前推出其备受期待的R2模型。原先计划于5月初发布R2模型的DeepSeek，现决定提前发布日期。新一代R2模型有望在编码技能上有所提升，并且能够处理除英语外的其他语言。...

2025-02-25 talkingdev

近日，Moonshot发布了一项名为Block Attention混合算法的创新技术，该算法在长上下文语言模型（LLM）中的应用表现卓越，被认为可与NSA相媲美。Block Attention混合算法通过优化注意力机制，显著提升了模型在处理长文...