漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-29 talkingdev

UCSD-训练更具表现力的人形机器人

来自加州大学圣地亚哥分校(UCSD)的研究人员训练了人形机器人的动作,使其更具表现力、社交倾向和鲁棒性。他们在草地上的非编排舞蹈视频非常令人印象深刻。该研究团队使用了深度强化学习,让机器人能够快速学习和适应...

Read More
2024-02-28 talkingdev

VSP-LLM可视化语音识别框架开源

Visual Speech Recognition with Language Models(VSP-LLM)框架在视觉语音识别和翻译中引入了新的方法,通过集成LLMs来高效处理视频输入,通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。

Read More
2024-02-27 talkingdev

Snap的视频生成模型速度提升3倍

Snap研究开发了一种视频生成模型,其速度比之前的最先进模型快3倍(排除Sora)。该模型可以生成高质量的视频,并且在处理速度方面具有显著优势。Snap的这项技术将对视频制作、社交媒体、游戏等领域产生重大影响。

Read More
2024-02-27 talkingdev

R2R:快速部署生产级RAG系统的框架

R2R是一个半正式框架,旨在快速部署生产级RAG系统。它旨在弥合实验性RAG模型和生产就绪系统之间的差距。R2R为在生产环境中部署、适应和维护RAG管道提供了简单的路径。现已提供短视频演示。

Read More
2024-02-26 talkingdev

WoVoGen-高质量街景视频生成器开源

世界体积感知多摄像头驾驶场景生成器(WoVoGen)是一个创新系统,旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频,以帮助自动驾驶车辆更好地识别和适应不同的路况。W...

Read More
2024-02-26 talkingdev

特斯拉分享Optimus机器人行走技术提升的更多画面

特斯拉最新的Optimus机器人片段显示其在其测试设施中平稳行走。该机器人目前可以以每秒0.6米的速度行走,相比机器人上次亮相时增加了30%的速度。特斯拉的目标是让机器人最终能够达到每小时五英里的速度。文章中提供...

Read More
2024-02-23 talkingdev

多视角扩散+:生成引人入胜的3D视图

最近,一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图,然后将它们拼接在一起,形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分,然后在每个部分上...

Read More
2024-02-22 talkingdev

Gemini Pro 1.5推出,视频处理成为其杀手级应用

Gemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小,远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节,但它能够处理并提取短视...

Read More
  1. Prev Page
  2. 14
  3. 15
  4. 16
  5. Next Page