漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-19 talkingdev

Sam Altman 深入讨论 OpenAI、GPT-5 及未来愿景

近日,OpenAI 首席执行官 Sam Altman 参与了一档播客节目,期间深入探讨了关于 OpenAI 的最新动态、GPT-5 的发展、Sora 项目、董事会的纷争、与 Elon Musk 的合作以及人工智能的未来。此次访谈的完整文字记录已经公...

Read More
2024-03-15 talkingdev

Figure 机器人现在可以与人进行完整对话

Figure 公司已经采用 OpenAI 技术,使得其机器人可以与人进行完整对话。OpenAI 的模型提供高级别的视觉和语言智能,而 Figure 的神经网络则可以提供快速、低级别的机器人动作。这篇文章包含一个视频,展示了一个人与...

Read More
2024-03-14 talkingdev

OpenAI计划今年发布文本到视频模型Sora

据报道,OpenAI计划在进行漏洞测试和设置安全防护措施后,于今年晚些时候公开发布其文本到视频模型Sora。Sora是一种能够将自然语言描述转化为视频的模型,这项技术在影视制作和游戏开发中有着广泛的应用前景。OpenAI...

Read More
2024-03-14 talkingdev

论文:SSMs-线性内存消耗与高质量的视频生成

这项研究介绍了一种创新的视频生成方法,使用状态空间模型(SSMs)克服了传统的基于注意力扩散模型的内存限制,重点关注线性内存消耗。在UCF101和MineRL Navigate数据集的测试中,SSMs能够创建具有竞争力质量的更长...

Read More
2024-03-13 talkingdev

FastV: 优化视觉语言模型效率方法开源

该项目提出了一种改善大型视觉语言模型(例如LLaVA-1.5、QwenVL-Chat和Video-LLaVA)效率的方法,解决了“低效的注意力”问题。使用FastV这种新方法,通过修剪视觉令牌和学习自适应注意力模式来优化这些模型,从而显著...

Read More
2024-03-13 talkingdev

VideoMamba视频方案所有代码和模型开源

VideoMamba是一种解决视频理解复杂性的解决方案,它通过高效地管理本地冗余和全局依赖性来实现。该项目的创建者宣布,他们已经将代码和模型全部发布到GitHub上供公众使用。这个开源项目将提高人工智能在视频理解上的...

Read More
2024-03-13 talkingdev

V3D开源-视频扩散模型增强3D生成技术

这个项目引入了一种新颖的方法,通过单个图像生成高质量、详细的3D物体,增强了3D物体的生成。该方法基于视频扩散模型,利用深度学习技术从单个视角的2D图像生成高质量的3D模型。此方法可应用于各种领域,如游戏制作...

Read More
2024-03-12 talkingdev

VideoElevator:将文本转化为视频的新方法

VideoElevator引入了一种新的方法,通过利用文本到图像模型的优势来增强文本到视频扩散模型。这种即插即用的方法将增强过程分为了调整时间运动和提升空间质量两个部分,从而产生了帧质量和文本对齐得到了提高的视频...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page