语言模型的相关内容 - 漫话开发者

2024-06-19 talkingdev

论文：使用ERASE更新语言模型

ERASE是一种全新的更新语言模型的方法。这种方法与传统的注重在预测过程中提高检索效率的方法有所不同，ERASE在新的文档被添加时，会逐步删除或重写知识库中的条目。这种方法的出现，为语言模型的更新提供了一种全新...

2024-06-19 talkingdev

在MLPerf的两项新测试中，由Nvidia的Hopper架构驱动的系统表现突出，这两项测试分别比较了大型语言模型的微调和图神经网络的训练。MLPerf是一个AI基准测试套件，用于比较不同系统在AI任务上的性能。Nvidia的Hopper架...

2024-06-12 talkingdev

近日，Meta公司公布了一篇关于其如何规模化训练大型语言模型的论文。该论文详细介绍了Meta公司的训练方法，该方法可以同时训练多达14亿个参数的语言模型。该规模远超以往的语言模型训练规模，并且可以在更短的时间内...

2024-06-12 talkingdev

CARES是一个全面的评估框架，用于评估医疗大视觉语言模型（Med-LVLMs）的可信度。该框架的目标是确保这些模型能够在医疗环境中提供可靠且准确的结果。就像其他的人工智能模型一样，医疗大视觉语言模型的可信度是其成...

2024-06-12 talkingdev

PHATGOOSE是一种显著提高AI在没有先前暴露的情况下概括和学习新任务能力的方法。这种方法通过智能地在不同专业的语言模型之间进行路由，以完成任务的各个部分。零样本学习是一种让机器学习模型在没有见过任何训练样...

2024-06-08 talkingdev

在自然语言处理（NLP）中，分块是指将句子分成更小的组块（块）的过程，每个块都有自己的语法和含义。在RAG（Retrieval-Augmented Generation）应用程序中，分块是生成响应的重要步骤。不同于传统的基于规则或基于统...

2024-06-07 talkingdev

阿里云最新发布的旗舰语言模型Qwen 2在基准性能测试中略超越了Llama 3 70B，成为新一代语言模型的标杆。Qwen 2不仅在英语性能方面表现卓越，同时也是一个更优秀的多语言模型。这一突破性进展标志着阿里云在人工智能...

2024-06-07 talkingdev

Together AI团队发布了一款名为DragonFly Vision的全新视觉语言模型（VLM）。该模型因其高效的架构在处理极高分辨率图像方面表现卓越。DragonFly Vision采用了一系列先进的技术，包括深度学习和神经网络优化，从而实...