漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-07 talkingdev

德国TNG实验室发布DeepSeek-TNG R1T2 Chimera模型,速度提升200%

德国知名技术咨询公司TNG Technology Consulting GmbH近日发布了其最新研发的DeepSeek-TNG R1T2 Chimera模型。这一突破性进展在人工智能领域引起广泛关注,该模型不仅显著提升了处理速度达200%,同时大幅减少了输出t...

Read More
2025-07-04 talkingdev

前沿AI推理时间扩展与集体智能:新方法在ARC-AGI-2基准测试中提升30%性能

一项创新的推理时间扩展方法通过结合o4-mini、Gemini-2.5-Pro和DeepSeek-R1三种AI模型,在ARC-AGI-2基准测试中实现了30%的性能提升,显著优于单个模型的表现。该技术采用动态选择机制,根据问题特性自动分配最适合的...

Read More
2025-06-17 talkingdev

DeepSeek R1-0528与FLUX.1 Kontext图像编辑模型登陆Together AI平台,推理API与聊天应用免费体验

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型:DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化,显...

Read More
2025-05-28 talkingdev

DeepSeek-R1-0528:开源大模型新突破

DeepSeek团队在Hugging Face平台发布了最新的大语言模型DeepSeek-R1-0528,引发了技术社区的广泛关注。该模型在Hacker News上获得了330个点赞和148条评论,显示出业界对其技术价值的认可。作为开源大模型领域的重要...

Read More
2025-04-25 talkingdev

HP AI Studio助力本地化部署:将DeepSeek-R1大模型蒸馏至个人设备

惠普AI Studio推出创新技术方案,通过模型蒸馏技术将前沿大语言模型DeepSeek-R1的推理能力压缩至可在本地设备运行的轻量级版本。该技术突破实现了大模型从云端到本地的迁移,用户可通过Ollama框架进行本地推理部署,...

Read More
2025-04-18 talkingdev

[论文推荐]JudgeLRM:基于强化学习训练的推理大模型在评判任务中超越GPT-4

斯坦福大学研究团队最新推出的JudgeLRM模型家族,通过强化学习训练机制在复杂推理评判任务中展现出突破性性能。该技术采用与标准监督微调(SFT)截然不同的训练范式,在需要深度逻辑分析的评估场景下,其综合表现显...

Read More
2025-04-07 talkingdev

DeepSeek R1模型1.58bit量化新突破:MoE层实现超低比特压缩

Unsloth团队针对DeepSeek最新R1模型成功开发出创新量化方案,其核心突破在于将混合专家(MoE)层压缩至惊人的1.58bit,同时通过动态量化技术保持其他模块在4-6bit精度。研究发现,模型Tokenizer的特殊结构为量化带来...

Read More
2025-03-18 talkingdev

小红书接入DeepSeek大模型,AI搜索产品“点点”推出“深度思考”功能

近日,钛媒体AGI独家获悉,小红书即将接入DeepSeek-R1开源模型,其AI搜索产品“点点”App将推出“深度思考”功能,目前该功能正处于内测体验阶段。这一举措标志着小红书在AI技术应用领域的进一步深化。截至2024年6月,小...

Read More
  1. Next Page