漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-04-16 talkingdev

[开源]Auto Deploy (GitHub Repo):NVIDIA推出PyTorch和Hugging Face模型高效部署新方案

NVIDIA在GitHub开源项目TensorRT-LLM中发布了名为Auto Deploy的创新工具,该技术实现了将PyTorch和Hugging Face模型转化为高效可部署格式的重大突破。通过TensorRT-LLM的优化编译器,模型推理速度可提升数倍,特别适...

Read More
2025-03-28 talkingdev

[论文推荐]Guidance-Free Training:无需分类器引导的视觉生成模型训练新方法

近日,一项名为Guidance-Free Training(GFT)的技术突破引发计算机视觉领域关注。该技术通过完全消除对Classifier-Free Guidance(CFG)的依赖,在保持生成质量的同时显著降低计算成本。与传统基于蒸馏的方法不同,...

Read More
2025-02-24 talkingdev

Triton实现Naive Sparse Attention,助力高效长上下文注意力算法

近日,DeepSeek NSA论文因其可扩展且高效的长上下文注意力算法引发了广泛关注。然而,该论文并未提供相关代码。为此,一项基于Triton的实现应运而生,该实现可无缝集成到任何PyTorch代码库中。Triton作为一种高效的G...

Read More
2025-01-29 talkingdev

SmolGPT:基于PyTorch的轻量级LLM训练框架开源

近日,一款名为SmolGPT的轻量级PyTorch实现框架正式发布,旨在帮助开发者从零开始训练小型LLM(Large Language Model)。该框架以其简洁的设计和高效的性能吸引了广泛关注。SmolGPT通过优化模型结构和训练流程,显著...

Read More
2025-01-22 talkingdev

论文:PyTorch新工具包'landmarker'发布,助力地标定位算法开发与评估

近日,一款名为'landmarker'的Python工具包正式发布,该工具包基于PyTorch框架,旨在为地标定位算法的开发与评估提供灵活的工具支持。'landmarker'不仅简化了算法的实现过程,还提供了丰富的评估功能,帮助研究人员...

Read More
2024-09-20 talkingdev

CuPy:为GPU量身定制的NumPy和SciPy替代品

CuPy是一个基于GPU的数组库,旨在为高性能计算提供与NumPy和SciPy兼容的API。它的设计使得用户能够在GPU上高效地执行数值计算,从而显著提升计算速度。CuPy采用了CUDA编程模型,支持多种GPU加速功能,包括矩阵运算、...

Read More
2024-07-01 talkingdev

PyTorch调试指南:帮助您高效解决常见问题

PyTorch是构建模型的强大工具。然而,在实际使用中,一些常见的bug可能会大幅降低模型的性能。为此,我们提供了一份实用的列表,帮助您在调试模型代码时找到问题并解决。该列表内容详尽、实用性强,无论是在建模过程...

Read More
2024-07-01 talkingdev

深入探讨:训练MoEs模型

Mosaic团队已与PyTorch合作,撰写关于如何扩展他们的MoEs模型至数千个GPU的文章。MoEs,全称Mixture of Experts,是一种深度学习的模型结构,其核心思想是将复杂的问题分解为若干个相对简单的子问题,然后由专家系统...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page