强化学习的相关内容 - 漫话开发者

2023-10-31 talkingdev

HF团队成功复现OpenAI的第一个RLHF代码库

HuggingFace团队成功复现了OpenAI的第一个RLHF代码库，该代码库于2019年发布，是引入了一些最初的RLHF（强化学习与人类因素）想法。这个代码库被称为“Generative Pretraining Transformer（GPT）”。通过在计算机上训...

2023-10-13 talkingdev

如果你的模拟器是生成式AI，它可以实现零-shot迁移机器人策略！DeepMind和同事的这项工作解决了强化学习通常无法推广到训练环境之外的挑战。如果我们把所有东西都作为训练环境，那么就没有必要进行推广了。

2023-09-28 talkingdev

Llava是一种将视觉能力插入语言模型的方法。现在，它已经通过指令调整，并运行了RLHF（强化学习和直觉推理）过程。Llava大大提高了指令遵循和推理能力。这种新方法将人工智能技术推向了一个新的高度，使得计算机不仅...

2023-08-25 talkingdev

人类反馈在改善语言模型对齐和整体性能方面扮演着关键角色。然而，使用近端策略优化进行训练的过程中存在一些挑战。最近的研究表明，可以直接针对人类偏好进行优化，从而绕过奖励模型。借助基于文本的强化学习，你可...

2023-08-24 talkingdev

半监督和自我监督学习是机器学习模型生成训练信号的地方。这与标准的监督、无监督和强化学习有所不同。目标函数通常是特定于数据的（例如，掩盖单词或旋转图像）。本研究深入探讨了在这个领域使用的常见技术和存在的...

2023-08-21 talkingdev

近期，WizardLM团队的研究进展备受关注。他们最新的论文探讨了用于指令调整的数据策划问题。WizardLM在强化学习部分做出了突破性的提升，成功超越了许多封闭源模型在数学和推理任务上的表现。他们的研究成果可能会对...

2023-08-17 talkingdev

强化学习可能是当前对齐大型语言模型（甚至视觉模型）最好的工具。然而，当你需要大量的人类数据来训练一个奖励模型时，这就成为了一项挑战。如果你可以只使用“提示”呢？这是RLCF（强化学习计算框架）趋势的又一绝佳...