Triton的相关内容 - 漫话开发者

2025-04-16 talkingdev

[开源]OpenAI开源其FP4与MoE核心算子至Triton语言项目

OpenAI近日将其内部研发的高性能计算核心——FP4（4-bit浮点）与MoE（混合专家）系统的关键算子通过GitHub PR开源至Triton语言项目。这一举动标志着AI基础设施领域的重要进展：FP4作为新兴的低精度计算格式可显著提升...

2025-02-24 talkingdev

近日，DeepSeek NSA论文因其可扩展且高效的长上下文注意力算法引发了广泛关注。然而，该论文并未提供相关代码。为此，一项基于Triton的实现应运而生，该实现可无缝集成到任何PyTorch代码库中。Triton作为一种高效的G...

2024-04-11 talkingdev

Attorch项目旨在用Python和Triton重新编写PyTorch的nn模块部分代码，创建一个易于修改且性能卓越的神经网络实验库。这一尝试标志着以往成本过高的编写工作现在变得可行。Attorch的设计允许研究人员和开发者轻松进行...

2024-03-26 talkingdev

Anyscale与NVIDIA最近宣布了一项新的合作伙伴关系，旨在帮助客户将生成式AI模型扩展到生产环境中。通过这次合作，客户可以将Ray与Anyscale的托管运行环境相结合，以提高资源管理、可观测性和自动扩缩容的能力。这项...

2024-03-21 talkingdev

Trigon 是一个允许开发者以类似 Python 的方式编写 CUDA 内核的库，近期正逐渐获得关注。该库的 GitHub 仓库中包含了一系列难度逐步提升的谜题，旨在鼓励开发者学习和掌握这一工具。这些谜题不仅有助于新手快速上手...

2024-02-22 talkingdev

Sasha Rush发布了一份注释教程，介绍了如何使用自定义Triton内核加速Mamba。由于Triton编译器中的一个错误，它目前无法扩展，但它是技术的极端演示，并适合那些想要深入了解状态空间变换器替代品的人。Mamba是一种用...

2023-12-13 talkingdev

近期，Triton手写常见模型梯度加速 AI 训练的项目备受关注。该项目手写了一些常见模型的梯度，以加速训练过程。尽管该项目的基准测试结果并不是最具说服力的，但这是一项非常值得尝试的努力。根据测试结果，该项目能...

2023-11-20 talkingdev

我们可以通过使用Torch编译、稀疏化、与Triton一起使用自定义内核以及其他PyTorch性能特性，将分割任务的速度提高8倍。