漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-14 talkingdev

论文:利用流体控制现实世界物体的强化学习实验系统

《流体盒子》介绍了一种新颖的实验系统,用于在动态的现实世界环境中测试强化学习算法,解决了模拟强化学习应用中复杂流体动力学的挑战。它展示了无模型强化学习算法从简单奖励中生成复杂行为的能力,并通过离线强化...

Read More
2024-01-25 talkingdev

论文:对比优化偏好技术在机器翻译中的应用

对比偏好优化(CPO)是一种新的优化技术,现在应用于机器翻译。与DPO相比,CPO在数据效率方面更高。重要的是,该目标函数防止模型提出合理但不准确的翻译,从而使模型在WMT上取得了有竞争力的表现。

Read More