基础设施的相关内容 - 漫话开发者

2025-06-20 talkingdev

语言模型推理经济学：为何当前扩展方法遭遇瓶颈

首份关于大语言模型（LLM）服务经济学的综合模型揭示，随着AI公司竞相部署高token消耗的推理模型和智能体，当前扩展推理能力的方法比预期更快遭遇瓶颈。研究发现，网络延迟而非带宽成为主要瓶颈，阻碍了公司通过简单...

2025-06-19 talkingdev

6月25日，知名分析机构451 Research与AI企业Glean将联合举办线上研讨会，深度探讨企业级AI向智能体（Agentic）转型的技术路径与市场机遇。本次会议将发布基于全球500强企业的AI应用调研数据，揭示智能体技术在自动化...

2025-06-19 talkingdev

DeepNVMe最新版本实现了多项突破性升级：首先扩展了对模型检查点（checkpointing）和推理工作负载的支持，使深度学习框架能更高效地管理训练中间状态；其次新增PCIe Gen5 NVMe的扩展能力，显著提升存储带宽以应对大...

2025-06-18 talkingdev

Kapa.ai最新发布的文档《Writing documentation for AI: best practices》详细探讨了为AI系统撰写高效文档的核心原则，尤其针对检索增强生成（RAG）技术栈的优化需求。文章指出，RAG系统的性能高度依赖知识库文档的...

2025-06-17 talkingdev

知名数据压缩库bzip2的Rust实现版本（bzip2 crate）近日宣布完成从C语言到纯Rust代码的全面迁移，这一技术转型引发开发者社区广泛关注。该项目作为Rust语言在系统编程领域替代C语言的典型案例，其技术迁移过程涉及内...

2025-06-17 talkingdev

Groq的低延迟硬件技术现已正式成为Hugging Face Hub及SDK的可选推理服务提供商，这一合作标志着AI基础设施领域的重大突破。通过集成Groq的专用处理器架构，开发者能够以服务器无感知（serverless）方式极速调用Llama...

2025-06-17 talkingdev

GitHub最新开源项目CoRT（Code Interpreter Reasoning）提出了一种创新的方法，通过提示工程（hint engineering）对大语言模型进行后训练（post-train），使其能够将复杂计算任务智能分配给外部代码解释器执行。这一...

2025-06-17 talkingdev

OpenAI宣布将Prompts（提示词）正式升级为API原语，这一重大更新将允许开发者在Playground、API、Evals和Stored Completions等平台间实现提示词的集中管理、版本控制和优化。开发者现在可以预先配置提示词的工具、模...