漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-08-21 talkingdev

热门开源,机器人钢琴家的强化学习环境项目

近日,一款名为机器人钢琴家的强化学习环境项目在GitHub上开源,这是一个让人振奋的项目。在这个项目中,一个智能代理人通过学习控制一个机器人手,从而演奏出经典的钢琴曲。现如今,这个项目已经对外开源,让更多的...

Read More
2023-08-18 talkingdev

WizardLM,利用强化进化指令教大型语言模型进行推理

近期,WizardLM团队的研究进展备受关注。他们最新的论文探讨了用于指令调整的数据策划问题。WizardLM在强化学习部分做出了突破性的提升,成功超越了许多封闭源模型在数学和推理任务上的表现。他们的研究成果可能会对...

Read More
2023-08-17 talkingdev

强化学习:微型故事模型的对齐工具

强化学习可能是当前对齐大型语言模型(甚至视觉模型)最好的工具。然而,当你需要大量的人类数据来训练一个奖励模型时,这就成为了一项挑战。如果你可以只使用“提示”呢?这是RLCF(强化学习计算框架)趋势的又一绝佳...

Read More
2023-07-31 talkingdev

论文:AI现已能从模拟环境中学习并独立交互

新的算法“思考者”引入了一种独特的方法,使人工智能能够独立地与模拟环境交互并从中学习,从而提高其制定战略计划的能力。在推箱子游戏和雅达利2600基准测试中,该算法展现了顶级的性能,为AI的强化学习提供了一种新...

Read More
2023-07-10 talkingdev

无需强化学习环节的逆向强化学习:快速且稳健

逆向强化学习有时被称为行为克隆或专家模仿。它通过引入一个内部强化学习环路,将监督调优的简单任务变得复杂。然而,如果我们去掉这个环路,我们可以获得强化学习探索的许多优势,同时避免了函数近似问题的挑战。这...

Read More
2023-06-19 talkingdev

超越人类水平:通过扩展强化学习系统实现超人级性能

强化学习在扩展方面一直很棘手。也就是说,当你增加模型大小或增加剧集数量时,事情开始变得复杂。然而,在其他AI学科中,扩展带来的性能足够好,值得克服这个挑战。在这项研究中,作者通过使用一些巧妙的设计技巧,...

Read More
2023-06-16 talkingdev

GitHub开源项目:Hindsight Experience Replay

近日,OpenAI开源了一份老但经典的论文——Hindsight Experience Replay,该论文是OpenAI成立初期所撰写的。Hindsight Experience Replay是一种处理强化学习中非每个时间步都有奖励的方法,它将代理的经验保存在重放缓...

Read More
2023-05-23 talkingdev

通过强化学习训练扩散模型

在最近的工作中,强化学习一直备受关注,主要集中在人类反馈方面。但事实证明,您也可以使用计算反馈作为奖励模型。在这项工作中,他们使用LLaVA视觉问答系统为多个不同任务给出bert分数。有趣的是,他们能够显着提...

Read More
  1. Prev Page
  2. 9
  3. 10
  4. 11
  5. Next Page