漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-31 talkingdev

HF团队成功复现OpenAI的第一个RLHF代码库

HuggingFace团队成功复现了OpenAI的第一个RLHF代码库,该代码库于2019年发布,是引入了一些最初的RLHF(强化学习与人类因素)想法。这个代码库被称为“Generative Pretraining Transformer(GPT)”。通过在计算机上训...

Read More
2023-09-28 talkingdev

Llava-RLHF视觉对齐模型的全新技术突破

Llava是一种将视觉能力插入语言模型的方法。现在,它已经通过指令调整,并运行了RLHF(强化学习和直觉推理)过程。Llava大大提高了指令遵循和推理能力。这种新方法将人工智能技术推向了一个新的高度,使得计算机不仅...

Read More
2023-09-04 talkingdev

RLHF与RLAIF的首次公开比较:性能相当,受人类青睐

近日,研究人员第一次公开比较了RLHF和RLAIF两种技术的性能。结果发现,这两种技术在最终模型性能方面基本相同,相比于基线模型,有大约70%的人类用户更青睐使用这两种技术。RLHF和RLAIF的研究和开发,推动了人工智...

Read More
2023-05-10 talkingdev

人工智能语言模型Claude采用宪法AI方法进行训练

Anthropic公司采用宪法AI方法对其语言模型Claude进行训练,为其赋予了明确的价值观。这些价值观是根据一系列宪法原则确定的,包括联合国人权宣言等,而不是像RLHF输入那样由隐含的价值观决定。 ## 主要内容: - An...

Read More
2023-04-13 talkingdev

Wombat:从RLHF到RRHF,以“正确”的方式对齐人类喜好(GitHub代码库)

## 新闻内容: Wombat是一种新的RLHF(Reinforcement Learning with Human Feedback,即通过人类反馈进行强化学习)学习范式,它通过更高效地将语言模型输出与人类喜好对齐,在需要更少的模型的情况下提供了简单的P...

Read More
  1. Prev Page