漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-04 talkingdev

LLMs在医疗领域的新突破

InvariantSelectPR是一种旨在提高大型多模态模型(LMMs)在特定领域如医疗保健中的适应性的方法。这种方法通过优化模型的选择和调整,使其能够更好地处理不同领域的数据,提高预测的准确性和可靠性。在医疗领域,数...

Read More
2024-06-04 talkingdev

TrainAllInfAttn方法提升大语言模型在数据稀缺领域的表现

TrainAllInfAttn是一种能够在数据稀缺的专业领域提升大语言模型表现的方法。随着人工智能技术的不断发展,如何在数据有限的情况下仍能保持模型的高效性和准确性成为了一个重要的研究方向。TrainAllInfAttn通过优化模...

Read More
2024-06-04 talkingdev

Mamba-2:强大的状态空间模型发布第二版

Mamba团队发布了Mamba-2,这是他们强大的状态空间模型的第二个版本。Mamba-2在前一版本的基础上进行了多项改进,显著提升了模型的性能和稳定性。该团队还提供了一份详细的说明文档,详细介绍了Mamba-2的技术细节和具...

Read More
2024-06-03 talkingdev

KL散度:人工智能中的快速高效距离测量方法

KL散度是一种快速、廉价且强大的方法,用于测量事物之间的一种距离。它在传统和现代人工智能中被广泛使用。这篇文章从视觉和数学角度探讨了这一强大的概念。KL散度,或称Kullback-Leibler散度,是一种用于衡量两个概...

Read More
2024-06-03 talkingdev

Mora:挑战Sora的新一代视频生成模型开源

Mora是一款创新的视频生成模型,它利用多个视觉AI代理,旨在挑战OpenAI的领先模型Sora。Mora的独特之处在于其多代理系统,这使得它在视频内容生成的多样性和质量上表现出色。通过集成高级视觉处理技术和机器学习算法...

Read More
2024-05-31 talkingdev

论文:Yuan 2.0-M32,具备注意力路由的MOE专家混合模型

Yuan 2.0-M32是一款具备40亿参数的专家混合模型,其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19,但其性能却接近后者。该模型在2万亿个token上进行了训练,展现出了令人惊讶的强大性...

Read More
2024-05-31 talkingdev

1bit-LLMs:AI能效问题的创新解决方案

随着大型语言模型性能的提升,其对能源和计算能力的渴求也随之增加。为降低成本,提高处理速度,同时减少对环境的影响,模型需要实现更小型化。研究人员目前采用一种名为量化的技术,通过减少模型参数的精度来压缩网...

Read More
2024-05-29 talkingdev

Codestral:Mistral的代码模型

Mistral是一家专注于开发人工智能技术的创业公司,最近推出了Codestral,这是一种全新的代码模型。Codestral使用深度学习技术,能够对代码进行理解和分析。与传统的代码分析工具不同,Codestral不仅可以识别代码的语...

Read More
  1. Prev Page
  2. 13
  3. 14
  4. 15
  5. Next Page