漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-05 talkingdev

人形机器人MagicBot,可烤棉花糖、折叠衣服和跳舞

MagicLab发布了MagicBot,这是一款能够烤棉花糖和跳舞的人形机器人。该机器人具有出色的平衡性和灵巧性——它能够完成空翻动作。MagicBot具有亚毫米级定位精度和几公斤的承重能力。本文提供了该机器人的视频展示。

Read More
2024-03-04 talkingdev

Summarize-用AI在一分钟内获取YouTube视频摘要

Summarize.ing是一款使用人工智能技术的产品,可以在一分钟内为YouTube视频生成摘要。这款产品可以帮助用户快速了解视频内容,不必花费大量时间观看整个视频。Summarize.ing使用基于深度学习的算法来分析视频内容,...

Read More
2024-03-04 talkingdev

Drive-WM让自动驾驶更安全

Drive-WM可以生成高质量的多视角视频,预测未来情景,从而使自动驾驶汽车做出更安全、更高效的驾驶决策。该技术可以根据车辆周围的环境生成准确的预测模型,为自动驾驶汽车提供更高质量的输入数据。此外,Drive-WM还...

Read More
2024-03-04 talkingdev

探索LLMa的视频理解技术

这个仓库包含了一系列有用的资源,重点是大型语言模型在视频理解领域的应用。这些资源包括论文、代码和数据集,可以帮助研究人员和工程师更好地理解和应用LLMa模型。LLMa模型是一种基于自然语言处理的技术,在视觉和...

Read More
2024-03-04 talkingdev

UniVS:基于提示词的统一视频分割架构

UniVS是一种用于视频分割的统一架构,采用新颖的基于提示的方法应对各种分割任务的挑战。通过将提示特征作为查询并引入目标感知的提示交叉注意力层,UniVS消除了启发式的帧间匹配需求,可以无缝适应不同的视频分割场...

Read More
2024-03-04 talkingdev

Genie世界模型:可生成交互式环境

Google DeepMind的Genie是一个基础的世界模型,通过在互联网视频上进行训练,可以从合成图像、照片甚至草图中生成各种可玩(动作可控)的环境。该模型使用了深度强化学习和生成式建模技术,可以为游戏开发、虚拟现实...

Read More
2024-03-04 talkingdev

本周苹果将发布iPad系列新产品

据报道,苹果计划本周发布新产品。据传闻,该公司将发布新款iPad Pro、iPad Air和MacBook Air型号,以及针对部分iPad的新款Magic Keyboard和Apple Pencil配件。此外,苹果可能还会宣布iPhone 15和iPhone 15 Plus的新...

Read More
2024-03-01 talkingdev

论文:视频框架成为现实决策的新语言

一篇令人惊叹的论文将视频框架作为人工智能与人类用户交互的一种潜在更好的方法。它展示了视频模型可以用作规划器、代理、计算引擎和环境模拟器。以视频为基础的人工智能可以模拟现实世界,更好地支持人类决策。

Read More
  1. Prev Page
  2. 13
  3. 14
  4. 15
  5. Next Page