强化学习的相关内容 - 漫话开发者

2024-01-04 talkingdev

Pykoi开源：采用RLHF提高LLMs性能

Pykoi是一个开源的Python库，旨在通过RLHF（Reinforcement Learning with Hamiltonian Flows）提高LLMs（Latent Linear Models）的性能。Pykoi是一个基于TensorFlow 2的库，提供了一系列的LLMs和RLHF的实现，可以直...

2023-12-22 talkingdev

tinyzero：让任何人都能在任何环境中轻松训练类AlphaZero的智能体

由DeepMind开发的AlphaZero程序可以精通诸如国际象棋、日本象棋和围棋等游戏。现在，tinyzero可以让任何人都能轻松训练类似AlphaZero的智能体，无论是在游戏中还是在其他环境中。tinyzero是GitHub上的一个开源项目，...

2023-12-18 talkingdev

如何看待OpenAI Q*的超级智能传言

近日，关于OpenAI Q*的传言引发了广泛的讨论。OpenAI Q*被认为是可能会引领人工智能迈向通用推理能力的重要一步。然而，OpenAI Q*并不太可能成为导致人工智能普适智能的关键突破口。OpenAI Q*是一种基于强化学习的模...

2023-12-13 talkingdev

科学家Randy Cogill教你如何使用强化学习构建Agent

Interview Kickstart将提供这个免费的实践课程！学习强化学习、Q-learning算法和Gymnasium（OpenAI Gym）。现在就保存您的座位吧！

2023-12-12 talkingdev

Meta推出Pearl，生产级强化学习Agent库

Meta的应用强化学习团队推出了Pearl (GitHub Repo)，这是一个生产级别的强化学习AI代理库。Pearl是一个Python库，它提供了各种强化学习算法，包括DQN、DDPG、TD3、SAC等等。Pearl还提供了基本的数据结构和一个可扩展...

2023-11-30 talkingdev

Meta发布CICERO，首个外交策略游戏中达到人类水平的AI代理

Meta AI最近发布了名为CICERO的AI代理，这是首个在外交策略游戏中达到人类水平的AI代理。CICERO在Diplomacy游戏中表现出了惊人的策略水平，其表现与人类玩家相当，并且超过了其他AI代理。Meta AI表示，CICERO的成功...

2023-11-28 talkingdev

RLHF的替代方案，DPO实现方案开源

直接偏好优化是使用非常相似的数据的RLHF的稳定替代方法。该存储库包含一个实现，用于学习该技术。虽然DPO是一种新兴的技术，但它在许多情况下都能够提供比强化学习更好的结果。它非常适合解决一些现实世界中的问题...

2023-11-28 talkingdev

OpenAI内部突破结合搜索和强化学习，Q*是什么

近期泄露的消息称，OpenAI领导层的争端是由内部突破所引起的，该突破将搜索和强化学习结合起来。本文阐述了一种理论，解释了这种新方法的实际运作方式，即Q*算法。强化学习是一种机器学习技术，它通过将智能体放置在...