漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-07 talkingdev

阿里云发布旗舰语言模型Qwen 2,效果超闭环模型

阿里云最新发布的旗舰语言模型Qwen 2在基准性能测试中略超越了Llama 3 70B,成为新一代语言模型的标杆。Qwen 2不仅在英语性能方面表现卓越,同时也是一个更优秀的多语言模型。这一突破性进展标志着阿里云在人工智能...

Read More
2024-06-07 talkingdev

Together AI发布高分辨率图像处理新模型DragonFly Vision

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型(VLM)。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术,包括深度学习和神经网络优化,从而实...

Read More
2024-06-06 talkingdev

XRec:利用大语言模型提升可解释推荐系统

XRec是一种模型无关的框架,它利用大型语言模型的语言能力来增强可解释推荐系统。该框架的核心在于通过自然语言处理技术,为用户提供更透明和易理解的推荐理由。这不仅提升了用户对推荐系统的信任度,还为开发者提供...

Read More
2024-06-06 talkingdev

MatMul突破性成果:无需矩阵乘法的高性能大型语言模型

研究人员发现了一种方法,可以在无需进行矩阵乘法(MatMul)的情况下,依然保持大型语言模型的强大性能,甚至在参数规模达到数十亿时仍然有效。这一突破性技术有望显著提高计算效率,减少资源消耗,并为未来的AI模型...

Read More
2024-06-06 talkingdev

LlamaCare:革新医疗应用的大型语言模型

研究人员推出了LlamaCare,一个专门为医疗知识调优的大型语言模型(LLM)。LlamaCare不仅在处理医疗数据方面表现出色,还引入了扩展分类集成(ECI)技术,以解决LLM中的分类问题。该模型的推出标志着医疗领域人工智...

Read More
2024-06-04 talkingdev

FineWeb:高质量网络规模文本数据集发布

训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而,FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集,用于语言模型训练。...

Read More
2024-06-04 talkingdev

TrainAllInfAttn方法提升大语言模型在数据稀缺领域的表现

TrainAllInfAttn是一种能够在数据稀缺的专业领域提升大语言模型表现的方法。随着人工智能技术的不断发展,如何在数据有限的情况下仍能保持模型的高效性和准确性成为了一个重要的研究方向。TrainAllInfAttn通过优化模...

Read More
2024-06-03 talkingdev

Conifer开源:显著提升LLM对复杂指令的理解能力

Conifer通过引入一个专门的数据集和渐进式学习方法,显著提升了大规模语言模型(LLM)对复杂指令的理解能力。该方法不仅能让LLM在处理复杂任务时表现得更为精准,还能有效减少错误率。专门的数据集涵盖了各类复杂指...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page