优化的相关内容 - 漫话开发者

2025-04-17 talkingdev

[开源]Tile Language：专为高性能GPU/CPU内核开发设计的领域特定语言

Tile Language是一种简洁的领域特定语言（DSL），旨在简化和优化高性能GPU/CPU内核（如GEMM、Dequant GEMM、FlashAttention和LinearAttention）的开发流程。该语言采用类似Python的语法，并基于TVM（Tensor Virtual...

2025-04-17 talkingdev

Prima CPP是llama.cpp的一个扩展项目，旨在通过内存映射（mmaping）技术，使大型模型能够在低内存环境中高效运行。这一技术突破为资源受限的设备部署先进AI模型提供了可能，尤其适用于边缘计算和移动端场景。通过优...

2025-04-17 talkingdev

M1是一种基于Mamba架构的推理模型，通过扩展测试时间计算进行训练。虽然尚未完全达到最先进模型的水平，但M1在长上下文处理和高吞吐量任务中表现出色。这一突破为大规模语言模型的推理效率提供了新的研究方向，特别...

2025-04-16 talkingdev

近日，一款名为Unsure Calculator的创新工具在技术社区引发关注。该工具被设计为一款基于概率的快速估算计算器，其核心理念是让用户能够像在餐巾纸上进行快速计算一样，轻松处理包含不确定性的数学问题。Unsure Calc...

2025-04-16 talkingdev

近日，一款名为Kermit的全新字体正式面世，该字体专为儿童设计，旨在提升儿童的阅读体验和学习兴趣。Kermit字体采用了圆润的线条和较大的字间距，使得每个字符都清晰易辨，非常适合低龄儿童阅读。设计团队表示，Kerm...

2025-04-16 talkingdev

OpenAI目前处于开发自家类似X社交媒体网络的初级阶段，该公司已有包含专注于ChatGPT图像生成的社交信息流的内部原型。尚不清楚OpenAI计划推出该社交网络作为独立应用程序，还是计划将其整合进ChatGPT应用中。拥有社...

2025-04-16 talkingdev

NVIDIA在GitHub开源项目TensorRT-LLM中发布了名为Auto Deploy的创新工具，该技术实现了将PyTorch和Hugging Face模型转化为高效可部署格式的重大突破。通过TensorRT-LLM的优化编译器，模型推理速度可提升数倍，特别适...

2025-04-16 talkingdev

OpenAI近日将其内部研发的高性能计算核心——FP4（4-bit浮点）与MoE（混合专家）系统的关键算子通过GitHub PR开源至Triton语言项目。这一举动标志着AI基础设施领域的重要进展：FP4作为新兴的低精度计算格式可显著提升...