漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-02-25 talkingdev

Moonshot推出Block Attention混合算法,提升长上下文LLM性能

近日,Moonshot发布了一项名为Block Attention混合算法的创新技术,该算法在长上下文语言模型(LLM)中的应用表现卓越,被认为可与NSA相媲美。Block Attention混合算法通过优化注意力机制,显著提升了模型在处理长文...

Read More
2025-02-25 talkingdev

LLM-SRec革新推荐系统:无需微调即可提升序列推荐精度

近日,LLM-SRec技术通过将用户序列行为直接整合到LLM(大语言模型)中,显著提升了推荐系统的准确性,且无需进行额外的模型微调。这一创新方法不仅简化了推荐系统的开发流程,还实现了推荐精度的新突破,成为当前推...

Read More
2025-02-24 talkingdev

OmniServe框架开源,助力大规模LLM高效部署

近日,OmniServe发布了一个全新的统一框架,旨在优化大规模LLM(大语言模型)的部署效率。该框架结合了低比特量化和稀疏注意力机制等创新技术,显著提升了模型推理速度并降低了成本。通过低比特量化,OmniServe能够...

Read More
2025-02-24 talkingdev

STeCa框架:提升LLM Agents在长期任务中的表现

近日,研究人员推出了一种名为STeCa的创新框架,旨在通过自动识别和纠正次优行动来提升LLM Agents在长期任务中的表现。该框架的核心在于其能够对LLM Agents的每一步行动进行校准,从而确保在复杂的长期任务中,每一...

Read More
2025-02-24 talkingdev

仅用四个数字2,如何构造任意整数?数学挑战引发热议

近日,一项关于如何仅用四个数字2构造任意整数的数学挑战在技术圈引发广泛讨论。该问题不仅考验数学家的创造力,也为算法设计和逻辑推理提供了新的思路。通过结合数学运算符、括号以及指数等工具,参与者可以尝试构...

Read More
2025-02-21 talkingdev

梁文峰与DeepSeek的开源AI探索之旅

梁文峰,一位对冲基金经理,推出了自筹资金的开源AI平台DeepSeek,该平台因其创新的LLM(如DeepSeek-R1)而迅速获得全球关注,这些模型可与OpenAI的模型相媲美。DeepSeek采用更具成本效益的训练方法,并兼容消费级硬...

Read More
2025-02-21 talkingdev

高效网络爬虫技术助力LLM预训练,Crawl4LLM数据提取新突破

LLM的预训练过程中,网络爬虫获取的数据往往因文本提取效率低下而被大量丢弃。然而,近期一项开源项目在GitHub上发布,显著提升了文档的保存率,并利用这些数据在少量爬取内容的基础上训练出更强大的模型。该项目...

Read More
2025-02-21 talkingdev

LLM-Oasis:大规模数据集助力LLM输出事实性评估

近日,LLM-Oasis作为一个大规模数据集正式发布,旨在为训练和评估系统提供支持,以检测和提升LLM(大语言模型)输出的事实性。随着LLM在自然语言处理领域的广泛应用,其生成内容的准确性和可靠性成为业界关注的焦点...

Read More
  1. Prev Page
  2. 48
  3. 49
  4. 50
  5. Next Page