漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-21 talkingdev

OpenRLHF开源,提供基于Ray的RLHF实现

近日,GitHub上有一个新的仓库OpenRLHF发布了。这是一个基于Ray的RLHF实现,专为Llama样式模型设计。该仓库集成了多种PPO稳定技巧,以提高性能。Ray是一款新型的分布式计算框架,它具有高效、易用等特点,支持快速构...

Read More
2024-02-14 talkingdev

WebLinx对话式网页抓取数据集开源

WebLinx是一个包含10万个基于对话格式的网络交互的数据集。它的发布是为了改善基于语言模型导向的网络导航的研究。该数据集包括对话、URL、HTML和屏幕截图。它由Carnegie Mellon大学的研究人员发布,已经开源。这个...

Read More
2024-02-13 talkingdev

RLX: 基于MLX的强化学习框架

RLX是一个基于MLX的强化学习框架,旨在为研究人员和工程师提供一个易于使用的平台,以便开发和实现强化学习算法。 RLX提供了一组易于使用的API和工具,可以帮助用户轻松地构建和训练强化学习模型。此外,RLX还提供了...

Read More
2024-02-12 talkingdev

探究面向生物信息学的Mojo编程语言

Mojo是一种面向生物信息学的编程语言,旨在提供一个易于使用且功能强大的工具来处理大型生物数据集。该语言建立在Perl语言的基础上,为用户提供了一种更简洁,更易于阅读和维护的编程体验。与Perl相比,Mojo语言的语...

Read More
2024-02-09 talkingdev

Yolo-World: 实时开放词汇的目标检测

目标检测是识别物体及其边界框的过程。通常只能为训练前选择的一组固定物体进行检测。本研究介绍了一种实时方法,可以进行开放词汇目标检测,这意味着它可以检测任何在运行时指定的物体组合的边界框。该方法使用了一...

Read More
2024-02-09 talkingdev

Google MusicLM团队使用RL技术提升音乐生成模型表现

Google的MusicLM团队使用了300k份反馈和其他奖励信号,在其音乐生成模型上运行了RL过程。他们发现该模型在人类偏好研究中表现优异,但尚不清楚哪种RL方法能产生最高保真度的输出。

Read More
2024-02-09 talkingdev

LLRT:用于解决快速高效的Serverless应用程序需求的JavaScript运行时

Low Latency Runtime (LLRT)是一种JavaScript运行时,旨在解决对快速高效Serverless应用程序的不断增长的需求。与在AWS Lambda上运行的其他JavaScript运行时相比,它提供了超过10倍的更快启动时间和最多2倍的总体更...

Read More
2024-02-07 talkingdev

Pearls背景下的上下文贝叶斯试验教程

Pearls是Meta维护的一个RL框架。本教程将介绍如何使用该软件解决基于贝叶斯试验的学习问题。

Read More
  1. Prev Page
  2. 5
  3. 6
  4. 7
  5. Next Page