漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-01-24 talkingdev

DepthAnything:通过大规模数据集提高单目深度估计精度

Depth Anything是一种新的单目深度估计方法,它依赖于约6200万张图像的大规模数据集来提高其精度。通过使用数据增强和预训练编码器的辅助监督,该模型实现了令人印象深刻的泛化能力,并在深度估计方面树立了新的标准...

Read More
2024-01-24 talkingdev

自我提升AI:通过选择独特数据的DiverseEvol方法

最近,一种名为DiverseEvol的新方法在GitHub上发布,它可以让AI模型选择自己的训练数据,使其在不需要人工或其他先进AI系统的帮助下变得更好。DiverseEvol方法包括两个步骤:第一步是从数据集中选择用于训练模型的样...

Read More
2024-01-24 talkingdev

GroupAnything:解决3D语义分组难题

在3D中进行分组是一个具有挑战性和模糊性的任务,因为您不知道需要多细粒度的分组操作(例如,键盘上的键与整个键盘本身)。这项工作使用多级蒙版,在解决语义3D分组问题方面取得了重大进展。

Read More
2024-01-24 talkingdev

如何用扩散技术克隆图像中的人脸

这项工作展示了如何使用扩散技术在图像中克隆人脸。虽然深度伪造有很多方法可以实现,但扩散技术由于其根据需要修补图像中的其他部分的能力而变得更加有趣。

Read More
2024-01-24 talkingdev

特斯拉终于发布FSD v12

特斯拉开始推出全自动驾驶Beta v12更新,将车辆控制从显式的C++代码转移到了基于AI的单一神经网络。这一发布标志着该公司实现自动驾驶雄心壮志的重要进展,但是该软件仍被标记为测试版。在软件被小心翼翼地推向选择...

Read More
2024-01-24 talkingdev

CSS技术:利用模块比例打造流动的字体比例尺

模块比例是一种数学规则,可用于创建有意的、和谐的字体大小。在CSS中,我们可以利用这个规则,通过设置不同的CSS类,实现流动的字体比例尺。这种方法可以提高网页设计的美感和可读性,同时也方便了开发者进行字体调...

Read More
2024-01-23 talkingdev

论文:BriVIS开放词汇视频实例分割

研究人员开发了BriVIS,一种改进开放词汇视频实例分割(VIS)的方法。通过使用一种称为布朗运动桥的技术,BriVIS保持了物体运动在视频帧之间的上下文,从而实现了更准确的视频和文本对齐。

Read More
2024-01-23 talkingdev

深度解析文本到视频技术原理

将文本描述转化为视频是当前研究的热门领域,最近几周出现了许多强大的模型。Hugging Face团队的这篇博客概述了这一任务、当前面临的挑战以及研究的现状。虽然不是完全全面的,但对于进一步阅读提供了良好的起点。

Read More
  1. Prev Page
  2. 336
  3. 337
  4. 338
  5. Next Page