RL的相关内容 - 漫话开发者

2024-02-02 talkingdev

AlphaGo中的MCTS搜索算法实现

Monte Carlo Tree Search (MCTS)是一种先进的搜索算法。它被用于AlphaGo中，研究人员现在正在努力将其与语言模型集成。MCTS的实现一直以来都非常棘手，但是Jax的出现使得它变得更为容易。现在，开发者们可以在GitHub...

2024-01-30 talkingdev

星链新推出：千兆网关每月75000美元起

Starlink最新的社区网关服务可为互联网服务提供商提供千兆速度。客户需要支付125万美元的预付款（每月75000美元），即可获得帮助建立专门接收高达10Gbps宽带速度的设施的服务。互联网服务提供商需要提供土地、电力和...

2024-01-25 talkingdev

论文：权重平均奖励模型的应用

奖励模型在RLHF中用于表示人类偏好，尽管被对齐的模型通常“破解奖励”并实现不利的性能。通过合并多个奖励模型，这些模型保持线性模式连接，得到的对齐模型被79％的人更喜欢，而不是一个对齐单一奖励模型的模型。模型...

2024-01-24 talkingdev

MM-Interleaved模型开源，可实现图文数据生成

近日，GitHub开源了MM-Interleaved模型，该模型在处理和生成交替的图文数据方面表现出色。MM-Interleaved模型能够根据输入的文本描述生成对应的图像，同时也可以从图像中提取文本。该模型使用了条件生成对抗网络（Co...

2024-01-12 talkingdev

Unsloth轻量化库加速TRL上的模型

Unsloth是一个轻量化库，可加速语言模型的微调。它现在可以轻松地与TRL在常见的模型架构上配合使用。Unsloth库通过一个简单的API使得模型训练和微调更快速。它可以帮助从训练数据中自动学习、优化和微调模型，使得模...

2024-01-09 talkingdev

对比激活下的Steering Llama 2技术

有很多方式可以对齐语言模型，例如SFT、LoRa、RLHF、DPO、Prompting和Threatening。本研究提出使用负嵌入加到偏置项中，以将模型生成推向期望的结果。

2024-01-04 talkingdev

Pykoi开源：采用RLHF提高LLMs性能

Pykoi是一个开源的Python库，旨在通过RLHF（Reinforcement Learning with Hamiltonian Flows）提高LLMs（Latent Linear Models）的性能。Pykoi是一个基于TensorFlow 2的库，提供了一系列的LLMs和RLHF的实现，可以直...

2024-01-03 talkingdev

SpaceX Starlink首次发射直接连接手机互联网卫星

SpaceX已经发射了第一批6颗Starlink卫星，旨在实现来自太空的直接连接手机互联网服务。这些卫星将为全球用户提供无需特殊硬件或软件即可随时随地进行短信、通话和浏览的服务。它们拥有一个调制解调器，可以在太空中...