微调的相关内容 - 漫话开发者

2024-02-09 talkingdev

人工智能的商业化之路

近期，人工智能研究的重点从单纯的准确性和广度转向了效率和深度。英伟达的H100销售和AI能源的不断增长凸显了该行业的规模。投资要求盈利，将研究重点转向了像Phi 2这样更小、更高效的模型，并强调从模型架构到部署...

2024-02-05 talkingdev

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-02-01 talkingdev

WhisperKit是一个用Swift编写的开源库，它将OpenAI的Whisper语音识别模型与Apple的CoreML框架集成，以在Apple设备上进行高效的本地推理。它可以通过Swift Package Manager集成到Swift项目中。WhisperKit会自动下载推...

2024-01-24 talkingdev

LoRA是一种低秩适配器，可让您仅微调语言模型中的少量参数。它们可以显着改善和改变这些模型的性能。

2024-01-23 talkingdev

针对图像-文本训练中使用的视觉基础模型，研究人员提出了一种名为ViSFT的新方法，以提高其性能。ViSFT使用类似于语言模型中的微调的两阶段过程来增强视觉基础模型。首先，该模型使用大规模的无监督预训练来学习图像...

2024-01-22 talkingdev

以往认为难问题需要难数据，但这些数据很难标记且带噪音。这项研究表明，对相关但易处理的数据进行微调训练，可以极大提高模型解决难问题的能力。这是支持微调训练是引出知识而非添加知识的又一数据点。本研究成果对...

2024-01-21 talkingdev

该项目提出了对比优化策略(CPO)，以提高机器翻译中中等规模语言模型的性能。将该方法应用于13B参数ALMA模型，解决了监督微调的局限性，并取得了改进。CPO策略通过对模型的预训练进行增量式微调，有助于提高机器翻译...

2024-01-20 talkingdev

Mixtral是一款人工智能软件，可用于数据处理和分析。使用GPT-4对其进行微调，可以快速降低其使用成本。GPT-4是最新一代的自然语言处理模型，具有更高的性能和更广泛的应用场景。在测试中，Mixtral与GPT-4的结合效果...