多模态模型的相关内容 - 漫话开发者

2024-01-23 talkingdev

机器学习工程开源书籍发布

机器学习工程开源书籍发布，该项目是一个开放的方法论集合，旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令，以使读者能够快速解决问题。该...

2023-12-18 talkingdev

Nous Research （Hugging Face Hub）发布了一种名为Capybara的新的语言基础模型和Obsidian的多模态扩展模型，该模型拥有30亿参数，可以在手机等边缘设备上运行。

2023-12-08 talkingdev

这个项目介绍了BenchLMM，一个专门设计用于测试GPT-4V和LLaVA等大型多模态模型对各种图像样式的鲁棒性的基准。

2023-12-08 talkingdev

Google的旗舰机型Gemini是一款原生多模态模型，其文本能力达到了GPT4的水平，同时还能够处理许多其他数据序列。此外，它还训练了Alpha Code 2，这是一个在代码力量比赛中排名前15%的编码器。Alpha Code 2将在12月13...

2023-11-30 talkingdev

标记提示集是一种聪明的方法，可以显着提高视觉+语言模型的性能。Roboflow的这个库为您提供类似的控制，并使使用这些模型构建强大的视觉管道变得更加容易。它甚至支持像LLaVa这样的开放模型。

2023-11-22 talkingdev

LLaVa是一种从文本模型训练多模型的方法。现在它可以用于视频。基于Vicuna的结果模型非常强大，可以轻松实现视频摘要和字幕的最新表现。

2023-10-20 talkingdev

HuggingFace 上现已推出 Fuyu-8B，这是一款专为数字代理设计的多模态模型。与其他多模态模型不同的是，它具有简化的架构，并支持任意图像分辨率，在不到 100 毫秒的时间内响应大图像。尽管针对特定应用程序，Fuyu-8B...

2023-10-13 talkingdev

本文深入探究了当前围绕多模态语言模型的研究活动。随着人工智能和自然语言处理领域的不断发展，多模态模型在语言理解、生成和预测等方面已经取得了很大的进展。本文介绍了多模态模型的基本原理，以及当前最先进的多...