自然语言处理的相关内容 - 漫话开发者

2025-02-24 talkingdev

Triton实现Naive Sparse Attention，助力高效长上下文注意力算法

近日，DeepSeek NSA论文因其可扩展且高效的长上下文注意力算法引发了广泛关注。然而，该论文并未提供相关代码。为此，一项基于Triton的实现应运而生，该实现可无缝集成到任何PyTorch代码库中。Triton作为一种高效的G...

2025-02-24 talkingdev

近日，首个基于Muon优化器训练的大规模模型Moonlight 16B在GitHub上正式发布。该模型经过5.7万亿个token的训练，架构与DeepSeek v3高度相似。Muon优化器的引入为大规模模型的训练提供了新的可能性，显著提升了训练效...

2025-02-21 talkingdev

Google Titans模型是Google最新推出的一种内存驱动AI架构，旨在通过高效的内存管理和数据处理能力，提升AI模型的性能和效率。该模型的核心在于其独特的内存驱动设计，能够显著减少数据访问延迟，从而加速模型训练和...

2025-02-21 talkingdev

在LLM的预训练过程中，网络爬虫获取的数据往往因文本提取效率低下而被大量丢弃。然而，近期一项开源项目在GitHub上发布，显著提升了文档的保存率，并利用这些数据在少量爬取内容的基础上训练出更强大的模型。该项目...

2025-02-21 talkingdev

近日，LLM-Oasis作为一个大规模数据集正式发布，旨在为训练和评估系统提供支持，以检测和提升LLM（大语言模型）输出的事实性。随着LLM在自然语言处理领域的广泛应用，其生成内容的准确性和可靠性成为业界关注的焦点...

2025-02-21 talkingdev

Figure公司近日展示了一款新型Vision-Language-Action（VLA）模型，专为人形机器人设计。VLA模型通过结合视觉和语言命令处理信息，使得机器人能够通过视频和大型语言模型的组合进行训练。Figure的Helix模型特别引人...

2025-02-20 talkingdev

近日，一项关于表示容量极限的研究引起了广泛关注。该研究尝试将尽可能多的Token嵌入到一个固定大小的向量中，成功实现了将1568个Token压缩至单一向量。这一突破不仅展示了embedding技术的强大潜力，也为LLM和agent...

2025-02-19 talkingdev

近日，DeepSeek公司推出了一项名为Native Sparse Attention的创新算法技术，旨在加速传统的二次Attention计算。该技术通过硬件对齐和原生可训练的稀疏Attention机制，实现了高达11倍的计算速度提升，同时保持了整体...