语言模型的相关内容 - 漫话开发者

2025-06-17 talkingdev

CoRT-通过代码解释器增强大模型推理能力

GitHub最新开源项目CoRT（Code Interpreter Reasoning）提出了一种创新的方法，通过提示工程（hint engineering）对大语言模型进行后训练（post-train），使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

2025-06-17 talkingdev

Nanonets-OCR-s是一款前沿的图像转Markdown OCR模型，其能力远超传统文本提取技术。该模型通过智能内容识别和语义标记，能够将文档转化为结构化的Markdown格式。它不仅理解文档结构和内容上下文，还能输出智能格式化...

2025-06-17 talkingdev

TreeRL是一种创新的语言模型训练方法，通过结合on-policy树搜索和中间监督机制，实现了无需单独奖励模型的LLM训练。这一技术突破来自最新arXiv论文，相比传统的ChainRL方法，TreeRL在数学推理和代码生成等复杂任务上...

2025-06-17 talkingdev

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型：DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化，显...

2025-06-16 talkingdev

SWE-Factory项目近日发布了一套自动化训练与评估管道，专门用于GitHub问题解决任务。该系统的核心创新在于采用了基于大语言模型（LLM）的多智能体系统架构，通过模拟人类开发者的协作模式，实现了软件开发问题的智能...

2025-06-16 talkingdev

一项突破性研究提出让大语言模型通过生成"自我编辑指令"实现持续性参数更新的训练框架。该技术通过监督微调使模型自主产生训练材料，在较小参数量下性能超越GPT-4.1，为解决AI领域的"数据墙"瓶颈提供了新思路。研究...

2025-06-16 talkingdev

开源情报研究团队近期对20个AI模型进行了500次地理定位挑战测试，采用未公开的旅行照片以防止模型依赖记忆数据。测试结果显示，OpenAI最新模型通过交叉参照建筑风格、植被特征及局部可见文本，表现超越Google Lens等...

2025-06-16 talkingdev

PyTorch官方博客最新发布的ParetoQ训练算法在低比特量化领域取得重大突破。该技术首次实现了二元（1-bit）、三元（1.58-bit）和2至4位量化的统一框架，并在所有量化级别上均达到当前最优性能。这一突破性进展尤其适...