漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-08 talkingdev

论文:CLIP模型使用全合成数据进行训练

由于LAION等大规模数据集的删除,以及版权问题,使得训练大规模图像模型变得具有挑战性。但是,这项工作表明,使用3000万个全合成的图像可以训练出强大的CLIP模型。

Read More
2024-02-02 talkingdev

AI技术如何在59秒内完成多项任务

随着人工智能技术的飞速发展,现在AI已经可以在不到一分钟的时间内完成多项任务。这意味着组织和员工必须强调利用AI的好处,而不是坏处。由于AI技术越来越成熟,它可以快速地完成多项任务,例如图像识别,语音识别,...

Read More
2024-01-20 talkingdev

苹果发布大型图像模型预训练论文

苹果公司发布了一篇关于用自回归损失预训练图像模型的论文。它测量了扩展行为,并发现像语言一样,这些大规模无监督的图像模型具有非常可预测的行为。这项技术为图像识别和计算机视觉领域的研究提供了新的思路和方法...

Read More
2024-01-10 talkingdev

结合CLIP和SAM以增强图像分割能力

本项目介绍了开放项目SAM,这是一个结合了CLIP和SAM模型的框架,用于提高图像分割和识别的能力。CLIP模型是一种基于对比学习的神经网络模型,用于学习图像和文字之间的关系,而SAM模型则是一种序列建模方法,用于对...

Read More
2024-01-09 talkingdev

V*搜索:提高GPT-V验证码识别性能的视觉算法

V*是一种新的基于图像的搜索算法,可以显著提高GPT-V(和其他VLM)验证码识别性能。这项技术的开发者表示,V*可以通过大量的图像数据来训练模型,从而提高模型的精度。V*算法的另一个优点是它可以将不同的图像元素组...

Read More
2024-01-08 talkingdev

Perplexity获得7360万美元融资,受到顶尖风投青睐

Perplexity是一家生成式搜索公司,其在技术圈内得到了广泛的应用。近日,该公司获得了来自顶尖风投的又一轮融资。本轮融资总额为7360万美元。Perplexity表示,这笔融资将用于加速其技术研发和市场拓展。Perplexity的...

Read More
2023-12-15 talkingdev

FIND多用途AI模型接口开源,提升图像和数据理解能力

FIND推出了一个多用途AI模型接口,使得AI模型能够更好地理解图像和数据集,而无需更改核心模型。该接口使用了一种新的嵌入对齐方法,能够将不同任务的嵌入空间对齐起来,从而提高模型的泛化能力。这一技术的研发背后...

Read More
2023-12-15 talkingdev

Google推出Imagen2,提供文本和标志生成功能

Google推出了Imagen 2,这是一种增强的AI图像模型,可供经批准的Google Cloud Vertex AI用户使用,提供文本渲染,标志以及多语言翻译等新功能。Imagen 2可以通过Google Cloud的AutoML API和Vision API实现。该模型使...

Read More
  1. Prev Page
  2. 6
  3. 7
  4. 8
  5. Next Page