语言模型的相关内容 - 漫话开发者

2025-02-13 talkingdev

OpenAI公布GPT-5路线图：GPT-4.5将成最后非链式思维模型

OpenAI近日公布了其GPT系列模型的未来发展路线图，计划在推出GPT-5之前，先发布GPT-4.5作为最后一个非链式思维（non-chain-of-thought）模型。GPT-5将实现o-series与GPT-series模型的统一，标志着OpenAI在大型语言模...

2025-02-10 talkingdev

近日，一项研究提出了一种创新方法，通过无数据余弦相似度技术追踪稀疏自编码器在大型语言模型（LLM）连续层中发现的特征演化过程。该方法能够映射特征的持久性、转换和涌现，生成跨层特征图。研究表明，这些特征图...

2025-02-09 talkingdev

在最新的技术观察中，我们总结了三个关键点，揭示了AI与LLM（大型语言模型）领域的未来发展趋势。首先，LLM的embedding技术正在迅速进步，使得模型能够更好地理解和生成自然语言。其次，agent技术的应用范围不断扩大...

2025-01-31 talkingdev

近日，Qwen2.5-VL这一全新的视觉语言模型推出了配套的Cookbooks，详细展示了如何利用该模型完成多种不同的任务。Qwen2.5-VL作为一款先进的视觉语言模型，具备强大的多模态处理能力，能够同时理解图像和文本信息。此...

2025-01-31 talkingdev

近日，一种名为VIRUS的方法在GitHub上开源，该方法旨在生成对抗性数据，以绕过大型语言模型（LLM）的审核系统，并破坏其安全对齐机制。VIRUS通过精心设计的输入数据，能够有效规避现有的内容过滤和防护措施，从而对L...

2025-01-28 talkingdev

Qwen团队近日发布了其最新的1M上下文模型，展示了在训练过程中逐步扩展上下文能力的技术进展。该模型不仅性能强劲，还支持本地化运行，显著提升了处理长文本任务的效率。此外，Qwen团队还发布了基于vLLM的推理框架，...

2025-01-27 talkingdev

近日，一款名为ErisForge的Python库在技术社区中引起了广泛关注。该库由一位开发者独立创建，旨在为大型语言模型（LLM）的消融研究提供支持。ErisForge通过简化消融实验的流程，帮助研究人员更高效地分析和理解LLM的...

2025-01-25 talkingdev

近日，DeepSeek团队发布了其最新研究成果DeepSeek-R1，旨在通过强化学习（RL）技术提升大型语言模型（LLM）的推理能力。DeepSeek-R1的核心目标是通过激励机制优化模型的推理过程，使其在处理复杂问题时表现出更高的...