漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-07 talkingdev

DeepSeek R1模型1.58bit量化新突破:MoE层实现超低比特压缩

Unsloth团队针对DeepSeek最新R1模型成功开发出创新量化方案,其核心突破在于将混合专家(MoE)层压缩至惊人的1.58bit,同时通过动态量化技术保持其他模块在4-6bit精度。研究发现,模型Tokenizer的特殊结构为量化带来...

Read More
2025-04-07 talkingdev

[开源] Nano Aha Moment:单文件单GPU实现DeepSeek R1-Zero风格全参数调优库

McGill-NLP实验室推出的Nano Aha Moment项目在GitHub开源,该项目通过极简架构实现高性能深度学习训练——仅需单个文件和一块GPU即可完成从零开始的完整参数调优,并复现了DeepSeek R1-Zero模型的训练范式。这一突破性...

Read More
2025-04-07 talkingdev

[论文推荐]DeepSeek提出推理时缩放技术,革新通用奖励模型训练范式

DeepSeek最新研究论文《Inference-Time Scaling for Generalist Reward Modeling》提出了一种创新方法,通过推理时缩放技术优化奖励模型,从而引导更强大的推理模型生成。该技术标志着这家中国初创公司的一项战略布...

Read More
2025-04-04 talkingdev

[开源]Perplexity发布Pplx Cuda Kernels,MoE性能超越DeepSeek

人工智能领域迎来重要技术突破,Perplexity公司近日在GitHub开源了其混合专家系统(MoE)的核心计算库Pplx Cuda Kernels。这套基于CUDA的高性能计算内核在实际测试中展现出显著优势,在大规模运算场景下性能超越知名AI...

Read More
2025-04-03 talkingdev

[开源] DeepSite开源画布:基于DeepSeek的实时编码创作平台登陆Hugging Face Hub

DeepSite是由DeepSeek提供技术支持的创新型开源画布工具,专为‘氛围编码(vibe coding)’场景设计,其革命性在于能实时更新应用程序——当系统编写代码的同时,用户可即时看到应用界面的动态变化。该平台通过深度集成A...

Read More
2025-04-03 talkingdev

微软CEO纳德拉:DeepSeek成为微软AI成功的新标杆

微软CEO萨提亚·纳德拉在宣布公司800亿美元AI投资计划后,强调了将AI研究转化为成功产品的重要性。微软正致力于提升其AI产品(如Copilot和Muse)的性能,同时确保投资方向与可持续发展目标保持一致。尽管AI工作负载增...

Read More
2025-04-02 talkingdev

阿里巴巴主席蔡崇信警告AI行业显现泡沫迹象

阿里巴巴集团主席蔡崇信近日对人工智能行业发出警示,指出当前AI领域可能正显现泡沫迹象。这一警告源于行业对数据中心的巨额投资与实际需求不匹配的现象。尽管全球范围内已承诺投入520亿美元用于AI技术研发,但过度...

Read More
2025-03-28 talkingdev

本地运行DeepSeek RAG:结合Elasticsearch、Ollama和Kibana的完整指南

近日,Elastic官方博客发布了一篇关于如何在本地环境中运行RAG(检索增强生成)系统的详细教程。该教程指导用户逐步安装Ollama并在容器中运行,随后将其连接到Kibana可视化平台,最终实现基于DeepSeek R1模型的本地R...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page