漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-02 talkingdev

FireLlava-商业许可的视觉模型开源

FireLlava是一个新的开源视觉模型,经过数据训练,可以用于商业任务。它与原始Llava的性能相当,但还没有达到Llava 1.5的水平。

Read More
2024-02-02 talkingdev

Llava 1.6发布,OCR、推理和世界知识得到改进

Llava是一种视觉语言模型,最新版本为1.6,经过改进后,其OCR、推理和世界知识等方面有了很大提升,甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型,以便更多人能够使用。

Read More
2024-01-12 talkingdev

本地部署AI模型现在也能拥有视觉能力

Ollama现在支持视觉模型啦,这意味着您可以在MacBook Pro上运行Llava,实现最先进的视觉和语言性能。 随着人工智能技术的发展,AI的应用场景越来越广泛。然而,由于许多私人AI的计算能力和算法限制,它们往往无法像...

Read More
2024-01-09 talkingdev

论文:Phi-2语言模型助力多模态LLaVA-Phi发布

LLaVA-Phi是一款创新的多模态助手,它使用Phi-2语言模型。尽管参数只有2.7B,但LLaVA-Phi在多模态对话中表现出色,结合了文本和视觉。该助手可以在多个领域内使用,例如智能家居和自动驾驶等。

Read More
2023-12-25 talkingdev

Llava多模交互模型:聊天式文本、图像输入和输出

Llava是一个强大的多模型模型。该交互式设计现在允许聊天式交错文本、图像输入和图像输出。Llava是一个深度学习模型,能够对文本和图像数据进行联合建模,并产生准确的输出。与其他模型不同的是,Llava模型不仅考虑...

Read More
2023-12-08 talkingdev

BenchLLM开源,测试大型多模态模型的基准

这个项目介绍了BenchLMM,一个专门设计用于测试GPT-4V和LLaVA等大型多模态模型对各种图像样式的鲁棒性的基准。

Read More
2023-11-30 talkingdev

Roboflow开源适用于多模态模型的提示库

标记提示集是一种聪明的方法,可以显着提高视觉+语言模型的性能。Roboflow的这个库为您提供类似的控制,并使使用这些模型构建强大的视觉管道变得更加容易。它甚至支持像LLaVa这样的开放模型。

Read More
2023-11-22 talkingdev

多模态模型训练方法LLaVa,可用于视频生成

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大,可以轻松实现视频摘要和字幕的最新表现。

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3
  5. Next Page