大语言模型的相关内容 - 漫话开发者

2025-05-05 talkingdev

资深LLM用户自述：生成式大模型并非我的常用工具

近日，一位长期使用大语言模型（LLM）的资深用户在个人博客中分享了他的使用心得。尽管生成式LLM（如GPT系列）在业界引起广泛关注，但该作者表示自己并不频繁使用这类模型。相反，他更倾向于将LLM应用于特定场景，如...

2025-05-05 talkingdev

阿里巴巴近日正式推出Qwen 3系列人工智能模型，该系列模型采用混合专家架构（Mixture of Experts），具备先进的推理能力，并宣称其性能可媲美谷歌和OpenAI的顶级模型。Qwen 3系列模型支持119种语言，训练数据规模高...

2025-05-05 talkingdev

中国人民大学自然语言处理实验室推出的WebThinker框架，标志着大语言模型（LRMs）向自主科研领域迈出关键一步。该开源项目通过构建深度研究架构，使LRMs具备三项突破性能力：1）智能化的全网信息检索系统，可自主定...

2025-05-04 talkingdev

一篇题为《Dummy's Guide to Modern LLM Sampling》的技术指南近期在开发者社区引发热议，该文章系统性地解读了现代大语言模型(LLM)中的采样技术。作为自然语言生成的核心组件，采样策略直接决定了文本输出的质量和...

2025-05-03 talkingdev

GitHub最新开源项目Anemll（Artificial Neural Engine Machine Learning Library）引发开发者社区广泛关注，该项目实现了在苹果设备神经引擎(ANE)上高效运行大语言模型(LLMs)的技术突破。作为专为ANE优化的机器学习...

2025-05-02 talkingdev

斯坦福大学MAST实验室推出的BLAST项目，是一款专为浏览器增强型大语言模型（LLM）设计的高性能服务引擎。该技术旨在简化网页浏览AI代理的部署流程，显著提升响应速度并优化成本管理。其核心创新包括：1）自动并行化...

2025-05-02 talkingdev

本文系统介绍了如何结合检索增强生成（RAG）技术与大语言模型运维（LLMOps）构建高仿真智能体的技术路径。作为当前AI领域的前沿方向，该方案通过实时监控智能体的决策过程、知识检索准确性和生成质量等关键指标，显...

2025-05-01 talkingdev

最新研究表明，通过在大语言模型（LLM）的残差流中实施简单的表征控制向量干预，可显著调节其推理性能。这项发表于arXiv的突破性研究揭示了神经网络内部表征与逻辑推理能力的直接关联，为可解释AI领域提供了新工具。...