训练方法的相关内容 - 漫话开发者

2024-01-22 talkingdev

论文：用简易数据解决难问题的训练方法

以往认为难问题需要难数据，但这些数据很难标记且带噪音。这项研究表明，对相关但易处理的数据进行微调训练，可以极大提高模型解决难问题的能力。这是支持微调训练是引出知识而非添加知识的又一数据点。本研究成果对...

2024-01-10 talkingdev

去年最好的编码模型之一是DeepSeek LLM。它在许多基准测试中接近GPT-3.5（即使它可能是3倍大小）。有关模型训练，令牌计数，模型架构等的信息已在技术报告中发布。DeepSeek LLM是一种基于语言模型的编码器，它使用自...

2023-12-19 talkingdev

Transformer模型虽然强大，但是由于其不稳定性，训练起来常常会很困难。其中一个主要的问题是注意力矩阵的熵崩溃。本文介绍了一种通过简单的重新参数化来防止熵崩溃的方法。

2023-11-22 talkingdev

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大，可以轻松实现视频摘要和字幕的最新表现。

2023-11-15 talkingdev

本文介绍了一种名为FinGPT的语言模型，该模型是在芬兰语上进行训练的，研究人员发现通过使用一些技巧，数据重复可以产生极为平滑的损失曲线。这可能是解决互联网上语言数据不足问题的一种简单方法。

2023-10-05 talkingdev

人工智能系统由架构、数据和训练方法三部分组成，优化器则是训练方法中的重要组成部分。目前，Adam优化器因其“即插即用”的特性而深受大众喜爱。然而，LION和Shampoo这两种优化器逐渐获得了人们的认可。来自Meta的Pyt...

2023-10-03 talkingdev

训练优秀的视频模型通常需要巨大的资源，这种需求往往超出了学术界的承受范围。现在，研究人员已经找到了一种方法，只需要使用一台配备八个标准GPU的机器，在一天内就能完成这些模型的训练。这意味着，我们不再需要...

2023-09-21 talkingdev

这项研究的重点是使已经擅长理解和生成文本的大型语言模型，在回答医学问题方面表现得更好。大型语言模型（LLMs）已经在很多领域包括医学领域显示出了巨大的潜力，然而，尽管如此，它们在理解和回答具体的医学问题方...