模型训练的相关内容 - 漫话开发者

2023-12-15 talkingdev

Cerebras发布gigaGPT模型训练框架

Cerebras是一家人工智能训练芯片制造商，近日发布了一个在其系统上训练大型模型的框架，名为gigaGPT。该框架非常简单易用，不需要将大型模型分割成多个GPU和节点进行训练。

2023-12-13 talkingdev

近日，HuggingFace 发布了最新版本的 Transformers 4.36.0。此次更新新增了 Mistral 模型和 AMD 支持等多项功能。同时，safetensors 已成为默认设置。HuggingFace 的这次更新将为 AI 模型的开发和训练提供更加便利的...

2023-12-13 talkingdev

近日，研究人员开发出了一种专门为生物应用设计的视觉模型BioCLIP。实验结果显示，在特定的生物任务上，BioCLIP的表现比OpenAI的clip高出近20%。此外，BioCLIP还提供了一个由1千万对图像和文本构成的训练集。事实...

2023-11-30 talkingdev

近日，OpenAI推出了数据伙伴计划，旨在与机构合作生产训练人工智能模型所需的数据集。该计划已经与包括冰岛政府和非营利组织Free Law Project在内的众多机构建立了合作关系。数据伙伴计划旨在通过与合作伙伴共享数据...

2023-11-29 talkingdev

伯克利的一组研究人员使用合成偏好数据训练了一个新的最先进的7B参数模型。本文讨论了训练奖励模型的新挑战（例如，示例在列表中的位置会改变其排名）以及他们如何克服这些挑战。结果模型可与经过训练的奖励模型一起...

2023-11-22 talkingdev

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大，可以轻松实现视频摘要和字幕的最新表现。

2023-11-22 talkingdev

一种深入研究训练语言模型所使用的数据的方法。研究结果表明，许多闭源模型可能没有在流行的基准测试上进行训练。

2023-11-15 talkingdev

本文介绍了一种名为FinGPT的语言模型，该模型是在芬兰语上进行训练的，研究人员发现通过使用一些技巧，数据重复可以产生极为平滑的损失曲线。这可能是解决互联网上语言数据不足问题的一种简单方法。