漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-12-15 talkingdev

借助CLIP推进医学影像技术开源

本项目探讨了CLIP预训练范式在医学影像领域的应用,讨论了其适应性、应用和限制。它旨在全面了解CLIP如何增强医学图像分析能力。

Read More
2023-12-13 talkingdev

BioCLIP:专为生物应用设计的视觉模型

近日,研究人员开发出了一种专门为生物应用设计的视觉模型BioCLIP。实验结果显示,在特定的生物任务上,BioCLIP的表现比OpenAI的clip高出近20%。此外,BioCLIP还提供了一个由1千万对图像和文本构成的训练集。 事实...

Read More
2023-11-03 talkingdev

论文:使用ChatGPT进行图像分类的研究

这项研究表明,使用大型语言模型将类别组织成层次结构可以提高图像分类的准确性,从而解决预训练模型(如CLIP)中存在的偏差问题,这些模型会混淆相似的类别。

Read More
2023-11-02 talkingdev

HF开源结合语言模型和计算机视觉进行开放式分词

Hugging Face Space最近发布了两项重要技术:Segment Anything和MetaCLIP,这两项技术结合了最强大的语言模型和计算机视觉技术,能够基于文本输入进行开放式分词。开放式分词是计算机视觉领域中一个新颖且令人兴奋的...

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
2023-10-31 talkingdev

计算机视觉中的嵌入技术

嵌入是一种机器可读的数字列表,用于表示有关数据的某些信息。它们越来越多地通过将数据通过神经网络并查看模型的激活来获得。本文在计算机视觉任务中使用CLIP推进了这一想法,并探讨了如何使用降维来推理学习到的嵌...

Read More
2023-10-18 talkingdev

Lingo:可视化语言动作模型助力自动驾驶

Wayve推出了名为Lingo的模型,该模型可以处理可视化数据、解释其选择并采取行动。跨模态的组合表示是一种流行趋势,CLIP为其打响了头炮,它是机器人领域中一个具有成长空间的研究领域。

Read More
2023-10-11 talkingdev

利用大型语言模型提升视频理解能力——FAVOR新方法的引入

研究人员推出了一种名为FAVOR的新方法,该方法通过在帧级别精细融合音频和视觉细节,使大型语言模型能够理解视频。FAVOR方法的推出,为大型语言模型的视频理解能力提供了新的发展空间。这种新方法通过在帧级别精细融...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page