漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-01-29 talkingdev

SmolGPT:基于PyTorch的轻量级LLM训练框架开源

近日,一款名为SmolGPT的轻量级PyTorch实现框架正式发布,旨在帮助开发者从零开始训练小型LLM(Large Language Model)。该框架以其简洁的设计和高效的性能吸引了广泛关注。SmolGPT通过优化模型结构和训练流程,显著...

Read More
2025-01-29 talkingdev

Airflow实现macOS直接向AirPlay设备流媒体传输

近日,Airflow推出了一项新功能,允许用户直接从macOS设备向AirPlay设备流媒体传输文件。这一功能极大地简化了媒体文件的传输过程,用户无需再通过复杂的设置或第三方应用即可实现无缝播放。Airflow支持多种媒体格式...

Read More
2025-01-28 talkingdev

Llama推理模型在GitHub Gist上的最新进展

近日,GitHub Gist上发布了一个关于Llama推理模型的最小化工作复现版本。该模型最初由OpenAI提出,并由DeepSeek发布。该模型通过数学问题的格式和正确性奖励进行训练,展示了在长时间训练后出现的“顿悟”时刻。这一进...

Read More
2025-01-28 talkingdev

CoT推理助力自回归图像生成技术突破

近日,一项关于CoT(Chain-of-Thought)推理在自回归图像生成领域的研究项目引发了广泛关注。该项目通过探索CoT推理的潜力,旨在提升自回归图像生成模型的表现。自回归模型在图像生成任务中通常依赖于逐步预测像素值...

Read More
2025-01-28 talkingdev

论文:基础模型参数高效微调技术综述

本文综述了基础模型的参数高效微调技术,深入探讨了在保持多样化任务性能的同时,如何最小化计算成本的方法。随着基础模型(如LLM)的广泛应用,参数高效微调技术(如LoRA、RAG等)成为研究热点。这些技术通过减少需...

Read More
2025-01-27 talkingdev

DeepSeek发布Janus Pro:全新文本生成图像工具

近日,DeepSeek正式发布了其最新的文本生成图像工具Janus Pro。该工具基于先进的LLM技术,结合embedding和LoRA优化,能够将用户输入的文本描述快速转化为高质量的图像。Janus Pro不仅支持多种艺术风格,还通过RAG技...

Read More
2025-01-27 talkingdev

Taylorator技术:全面掌控频率领域

近日,Taylorator技术的推出标志着频率控制领域的一次重大突破。该技术能够实现对多种频率的高效管理和优化,为通信、广播、雷达等多个行业带来了革命性的变化。Taylorator通过先进的算法和硬件设计,确保了频率使用...

Read More
2025-01-25 talkingdev

论文DeepSeek-R1-通过强化学习提升LLM的推理能力

近日,DeepSeek团队发布了其最新研究成果DeepSeek-R1,旨在通过强化学习(RL)技术提升大型语言模型(LLM)的推理能力。DeepSeek-R1的核心目标是通过激励机制优化模型的推理过程,使其在处理复杂问题时表现出更高的...

Read More
  1. Prev Page
  2. 39
  3. 40
  4. 41
  5. Next Page