视频的相关内容 - 漫话开发者

2024-02-29 talkingdev

UCSD-训练更具表现力的人形机器人

来自加州大学圣地亚哥分校(UCSD)的研究人员训练了人形机器人的动作，使其更具表现力、社交倾向和鲁棒性。他们在草地上的非编排舞蹈视频非常令人印象深刻。该研究团队使用了深度强化学习，让机器人能够快速学习和适应...

2024-02-28 talkingdev

Visual Speech Recognition with Language Models（VSP-LLM）框架在视觉语音识别和翻译中引入了新的方法，通过集成LLMs来高效处理视频输入，通过去重嵌入视觉特征和使用低秩适配器进行成本效益训练。

2024-02-27 talkingdev

Snap研究开发了一种视频生成模型，其速度比之前的最先进模型快3倍（排除Sora）。该模型可以生成高质量的视频，并且在处理速度方面具有显著优势。Snap的这项技术将对视频制作、社交媒体、游戏等领域产生重大影响。

2024-02-27 talkingdev

R2R是一个半正式框架，旨在快速部署生产级RAG系统。它旨在弥合实验性RAG模型和生产就绪系统之间的差距。R2R为在生产环境中部署、适应和维护RAG管道提供了简单的路径。现已提供短视频演示。

2024-02-26 talkingdev

世界体积感知多摄像头驾驶场景生成器（WoVoGen）是一个创新系统，旨在为自动驾驶创建逼真的街景视频。该系统使用机器学习和计算机视觉技术来生成高质量的街景视频，以帮助自动驾驶车辆更好地识别和适应不同的路况。W...

2024-02-26 talkingdev

特斯拉最新的Optimus机器人片段显示其在其测试设施中平稳行走。该机器人目前可以以每秒0.6米的速度行走，相比机器人上次亮相时增加了30%的速度。特斯拉的目标是让机器人最终能够达到每小时五英里的速度。文章中提供...

2024-02-23 talkingdev

最近，一种名为多视角扩散++的扩散模型引起了人们的注意。该模型可以生成一个对象的多个视图，然后将它们拼接在一起，形成一个引人入胜的3D版本。这个模型的基本原理是将对象分解成许多微小的部分，然后在每个部分上...

2024-02-22 talkingdev

Gemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小，远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节，但它能够处理并提取短视...