LLM的相关内容 - 漫话开发者

2025-02-25 talkingdev

Moonshot推出Block Attention混合算法，提升长上下文LLM性能

近日，Moonshot发布了一项名为Block Attention混合算法的创新技术，该算法在长上下文语言模型（LLM）中的应用表现卓越，被认为可与NSA相媲美。Block Attention混合算法通过优化注意力机制，显著提升了模型在处理长文...

2025-02-25 talkingdev

近日，LLM-SRec技术通过将用户序列行为直接整合到LLM（大语言模型）中，显著提升了推荐系统的准确性，且无需进行额外的模型微调。这一创新方法不仅简化了推荐系统的开发流程，还实现了推荐精度的新突破，成为当前推...

2025-02-24 talkingdev

近日，OmniServe发布了一个全新的统一框架，旨在优化大规模LLM（大语言模型）的部署效率。该框架结合了低比特量化和稀疏注意力机制等创新技术，显著提升了模型推理速度并降低了成本。通过低比特量化，OmniServe能够...

2025-02-24 talkingdev

近日，研究人员推出了一种名为STeCa的创新框架，旨在通过自动识别和纠正次优行动来提升LLM Agents在长期任务中的表现。该框架的核心在于其能够对LLM Agents的每一步行动进行校准，从而确保在复杂的长期任务中，每一...

2025-02-24 talkingdev

近日，一项关于如何仅用四个数字2构造任意整数的数学挑战在技术圈引发广泛讨论。该问题不仅考验数学家的创造力，也为算法设计和逻辑推理提供了新的思路。通过结合数学运算符、括号以及指数等工具，参与者可以尝试构...

2025-02-21 talkingdev

梁文峰，一位对冲基金经理，推出了自筹资金的开源AI平台DeepSeek，该平台因其创新的LLM（如DeepSeek-R1）而迅速获得全球关注，这些模型可与OpenAI的模型相媲美。DeepSeek采用更具成本效益的训练方法，并兼容消费级硬...

2025-02-21 talkingdev

在LLM的预训练过程中，网络爬虫获取的数据往往因文本提取效率低下而被大量丢弃。然而，近期一项开源项目在GitHub上发布，显著提升了文档的保存率，并利用这些数据在少量爬取内容的基础上训练出更强大的模型。该项目...

2025-02-21 talkingdev

近日，LLM-Oasis作为一个大规模数据集正式发布，旨在为训练和评估系统提供支持，以检测和提升LLM（大语言模型）输出的事实性。随着LLM在自然语言处理领域的广泛应用，其生成内容的准确性和可靠性成为业界关注的焦点...