DeepSeek-R1的相关内容 - 漫话开发者

2025-05-28 talkingdev

DeepSeek-R1-0528：开源大模型新突破

DeepSeek团队在Hugging Face平台发布了最新的大语言模型DeepSeek-R1-0528，引发了技术社区的广泛关注。该模型在Hacker News上获得了330个点赞和148条评论，显示出业界对其技术价值的认可。作为开源大模型领域的重要...

2025-04-25 talkingdev

惠普AI Studio推出创新技术方案，通过模型蒸馏技术将前沿大语言模型DeepSeek-R1的推理能力压缩至可在本地设备运行的轻量级版本。该技术突破实现了大模型从云端到本地的迁移，用户可通过Ollama框架进行本地推理部署，...

2025-04-18 talkingdev

斯坦福大学研究团队最新推出的JudgeLRM模型家族，通过强化学习训练机制在复杂推理评判任务中展现出突破性性能。该技术采用与标准监督微调（SFT）截然不同的训练范式，在需要深度逻辑分析的评估场景下，其综合表现显...

2025-04-07 talkingdev

Unsloth团队针对DeepSeek最新R1模型成功开发出创新量化方案，其核心突破在于将混合专家（MoE）层压缩至惊人的1.58bit，同时通过动态量化技术保持其他模块在4-6bit精度。研究发现，模型Tokenizer的特殊结构为量化带来...

2025-03-18 talkingdev

近日，钛媒体AGI独家获悉，小红书即将接入DeepSeek-R1开源模型，其AI搜索产品“点点”App将推出“深度思考”功能，目前该功能正处于内测体验阶段。这一举措标志着小红书在AI技术应用领域的进一步深化。截至2024年6月，小...

2025-02-21 talkingdev

梁文峰，一位对冲基金经理，推出了自筹资金的开源AI平台DeepSeek，该平台因其创新的LLM（如DeepSeek-R1）而迅速获得全球关注，这些模型可与OpenAI的模型相媲美。DeepSeek采用更具成本效益的训练方法，并兼容消费级硬...

2025-01-29 talkingdev

本文详细介绍了一种价值6000美元的硬件配置方案，用于在本地环境中运行完整的DeepSeek-R1模型。该配置方案需要两台CPU和768GB的RAM，跨越24个RAM通道。虽然方案中并未包含GPU，但可以额外添加GPU以提高模型生成速度...

2025-01-25 talkingdev

近日，DeepSeek团队发布了其最新研究成果DeepSeek-R1，旨在通过强化学习（RL）技术提升大型语言模型（LLM）的推理能力。DeepSeek-R1的核心目标是通过激励机制优化模型的推理过程，使其在处理复杂问题时表现出更高的...