漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-10-02 talkingdev

视觉变换器的需求:寄存器

近几周出现的最酷、最简洁的视觉论文之一。视觉变换器使用“无用”的像素值作为存储全局信息的地方,这使得注意力映射变得难以解读。然而,如果你向词汇表中加入一个简单的 [reg] 标记,模型就会使用它,而不会将信息...

Read More
2023-09-27 talkingdev

如何运用AI来构思亿万美元的商业点子

嘉宾作者Dan Kraemer在为Crunchbase News撰写的文章中,详细解释了他如何运用人工智能技术来构思下一个大创意。他的方法论源自对AI技术的深入理解和独特见解。他认为,AI技术的发展已经到了一个非常成熟的阶段,可以...

Read More
2023-09-25 talkingdev

Aragon AI:将自拍变为专业肖像

Aragon AI产品允许用户将自拍照片转变为专业的肖像照片。通过此产品,用户可以创建出一些看起来像是由专业摄影师拍摄的自己的真实AI照片。这不仅为摄影爱好者提供了新的拍摄体验,也给普通用户带来了便捷。用户无需...

Read More
2023-09-25 talkingdev

HuggingFace变形金刚中的Flash Attention 2:性能大幅提升

最新版本的Flash Attention在提升模型上下文长度和性能的同时,其速度也得到了极大的提升。目前,Flash Attention正在被HuggingFace生态系统本地化支持的过程中。Flash Attention的升级不仅仅提升了模型的运算速度,...

Read More
2023-09-22 talkingdev

论文:模型如何理解声音和视觉的结合?

这项研究介绍了AV-SUPERB,这是一个新的基准测试,用于测试训练模型在各种任务中对声音和视觉数据的理解程度。AV-SUPERB的目标是推动音频和视觉共同理解的发展,并为未来的研究提供一个统一的平台。这项研究突出了模...

Read More
2023-09-21 talkingdev

检索不仅仅是嵌入式搜索:AI检索技术的改进与挑战

语言模型在处理实际查询时,经常出现虚构的细节。通过检索事实,我们可以减少这些不准确性。然而,将查询嵌入并对向量存储进行搜索的检索增强生成(RAG)的基础形式往往表现不佳。本文讨论了如何利用查询对象和信息...

Read More
2023-09-21 talkingdev

DFormer开源,更深入理解RGB-D图像

DFormer是一种独特的方法,可以同时研究图像的颜色和深度。与旧有的方法不同,DFormer专为RGB-D图像设计。RGB-D图像是一种同时包含颜色信息(R,G,B)和深度信息(D)的图像。DFormer的设计目标是提供一种更有效的...

Read More
2023-09-20 talkingdev

HF transformers,最新的背景移除技术

Matting是一种创建黑白掩膜以分割出图像重要部分的过程。它通常用于前景和背景的分割。智能手机的人像模式使用了一种与这里描述的ViTMatte相似的方法。这种技术发展现代化,为未来的图像处理技术开创了新的可能。此...

Read More
  1. Prev Page
  2. 47
  3. 48
  4. 49
  5. Next Page