漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-09 talkingdev

探讨如何打造具有思考能力的人工智能

本文深入探讨了如何打造一种具有人类思维过程的人工智能。在过去的几十年中,人工智能一直是计算机科学领域的一个热门话题。尽管现在已经有了许多成功的应用程序,但我们远远没有达到完全模拟人类思维过程的目标。本...

Read More
2024-01-04 talkingdev

Pykoi开源:采用RLHF提高LLMs性能

Pykoi是一个开源的Python库,旨在通过RLHF(Reinforcement Learning with Hamiltonian Flows)提高LLMs(Latent Linear Models)的性能。Pykoi是一个基于TensorFlow 2的库,提供了一系列的LLMs和RLHF的实现,可以直...

Read More
2023-12-22 talkingdev

tinyzero:让任何人都能在任何环境中轻松训练类AlphaZero的智能体

由DeepMind开发的AlphaZero程序可以精通诸如国际象棋、日本象棋和围棋等游戏。现在,tinyzero可以让任何人都能轻松训练类似AlphaZero的智能体,无论是在游戏中还是在其他环境中。tinyzero是GitHub上的一个开源项目,...

Read More
2023-12-18 talkingdev

如何看待OpenAI Q*的超级智能传言

近日,关于OpenAI Q*的传言引发了广泛的讨论。OpenAI Q*被认为是可能会引领人工智能迈向通用推理能力的重要一步。然而,OpenAI Q*并不太可能成为导致人工智能普适智能的关键突破口。OpenAI Q*是一种基于强化学习的模...

Read More
2023-12-13 talkingdev

科学家Randy Cogill教你如何使用强化学习构建Agent

Interview Kickstart将提供这个免费的实践课程!学习强化学习、Q-learning算法和Gymnasium(OpenAI Gym)。现在就保存您的座位吧!

Read More
2023-12-12 talkingdev

Meta推出Pearl,生产级强化学习Agent库

Meta的应用强化学习团队推出了Pearl (GitHub Repo),这是一个生产级别的强化学习AI代理库。Pearl是一个Python库,它提供了各种强化学习算法,包括DQN、DDPG、TD3、SAC等等。Pearl还提供了基本的数据结构和一个可扩展...

Read More
2023-11-30 talkingdev

Meta发布CICERO,首个外交策略游戏中达到人类水平的AI代理

Meta AI最近发布了名为CICERO的AI代理,这是首个在外交策略游戏中达到人类水平的AI代理。CICERO在Diplomacy游戏中表现出了惊人的策略水平,其表现与人类玩家相当,并且超过了其他AI代理。Meta AI表示,CICERO的成功...

Read More
2023-11-28 talkingdev

RLHF的替代方案,DPO实现方案开源

直接偏好优化是使用非常相似的数据的RLHF的稳定替代方法。该存储库包含一个实现,用于学习该技术。虽然DPO是一种新兴的技术,但它在许多情况下都能够提供比强化学习更好的结果。它非常适合解决一些现实世界中的问题...

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page