计算机视觉的相关内容 - 漫话开发者

2024-12-13 talkingdev

Meta FAIR发布新研究成果、模型和数据集

Meta人工智能研究实验室（FAIR）近期宣布分享一系列新的研究成果、模型和数据集。这些资源旨在推动人工智能领域的研究和创新。新共享的资源包括经过优化的机器学习模型、旨在提升算法性能的数据集，以及前沿的研究成...

2024-10-24 talkingdev

Skyvern，作为YC S23的一员，最近正式推出。该项目是一个开源的AI代理，旨在简化浏览器自动化的过程。Skyvern结合了先进的机器学习技术，能够帮助用户自动执行各类在线任务，如表单填写、数据抓取和网页导航等。这一...

2024-09-25 talkingdev

Llama 3.2 是一款全新的开源可定制模型，旨在推动边缘AI和计算机视觉的发展。该模型的设计能够灵活适应多种应用场景，从智能监控到无人驾驶汽车，Llama 3.2 提供了强大的支持。其核心优势在于可定制性，使开发者能够...

2024-07-29 talkingdev

最近，研究人员推出了一种新的图像和视频分割模型——SAM 2，能够从图像和视频中精确地分割出任何物体。该模型采用了全新的分割框架，能够利用少量训练数据进行高质量的物体分割。SAM 2 的分割精度得到了显著提高，比...

2024-07-24 talkingdev

研究人员宣布了一个新的数据集，其中包含了一个拥有1万亿令牌的多模态数据集。该数据集包括图像、音频和文本数据，并可用于训练人工智能算法。通过使用这个数据集，研究人员可以更好地理解人类语言和视觉系统的工作...

2024-07-18 talkingdev

科研人员最近提出了一种新的视频立体匹配方法，该方法通过确保时间连续性，增强了深度估计的能力。立体匹配是计算机视觉中的一个核心任务，主要用于恢复场景的深度信息。新的立体匹配方法在处理视频内容时，特别强调...

2024-07-12 talkingdev

无监督概念提取（Unsupervised Concept Extraction，简称 UCE）是一项新的技术任务，它能从单张图片中提取并重建多个概念，无需任何人工注释。这种方法的优点在于，它能从大量的无标签数据中自动提取有价值的信息，...

2024-07-11 talkingdev

近日，由香港中文大学、清华大学等机构的研究人员提出了一种新的注意力机制模型——FlashAttention-3。相较于传统的注意力机制，FlashAttention-3 实现了异步和低精度计算，从而实现了在保证准确度的同时，大幅提高了...