偏好优化的相关内容 - 漫话开发者

2025-04-21 talkingdev

[开源]VistaDPO通过分层优化实现视频文本对齐，提升多维度偏好学习

VistaDPO项目通过创新的分层优化方法，在视频与文本对齐领域取得重要突破。该项目构建了一个包含7200个样本的全新数据集，专门用于优化空间和时间维度的偏好学习。其核心技术在于采用分层次的优化策略，能够同时处理...

2024-05-23 talkingdev

MedLFQA是一个全新的基准数据集，旨在提升大规模语言模型在医疗领域中长篇回答的事实准确性。该数据集通过提供高质量的训练数据，帮助改进语言模型的回答精度。与此同时，OLAPH框架通过自动评估和偏好优化，训练大规...

2024-01-25 talkingdev

对比偏好优化（CPO）是一种新的优化技术，现在应用于机器翻译。与DPO相比，CPO在数据效率方面更高。重要的是，该目标函数防止模型提出合理但不准确的翻译，从而使模型在WMT上取得了有竞争力的表现。

2023-12-12 talkingdev

稳定性人工智能公司发布了StableLM Zephyr 3B稳定聊天模型，该模型是StableLM 3B-4e1t模型的一个扩展，灵感来源于Zephyr 7B模型，旨在实现高效的文本生成，特别是在指令跟踪和问答上下文中。该模型已经使用直接偏好...

2023-11-28 talkingdev

直接偏好优化是使用非常相似的数据的RLHF的稳定替代方法。该存储库包含一个实现，用于学习该技术。虽然DPO是一种新兴的技术，但它在许多情况下都能够提供比强化学习更好的结果。它非常适合解决一些现实世界中的问题...

2023-11-17 talkingdev

根据偏好优化模型是促进ChatGPT普及的突破之一。类似的技术也可以用来提高模型的正确性和真实性，将医学回忆中的错误减少50%以上。

2023-08-25 talkingdev

人类反馈在改善语言模型对齐和整体性能方面扮演着关键角色。然而，使用近端策略优化进行训练的过程中存在一些挑战。最近的研究表明，可以直接针对人类偏好进行优化，从而绕过奖励模型。借助基于文本的强化学习，你可...