多模态的相关内容 - 漫话开发者

2024-03-07 talkingdev

稳定扩散 3：研究论文

稳定扩散 3 通过其新颖的多模态扩散转换器架构，通过文本和图像的分别处理权重，提高了提示理解和排版，优于领先的文本到图像模型，为AI生成的视觉内容带来了进步。

2024-03-06 talkingdev

Anthropic最近发布了Claude 3家族的三个新模型，其中最强的模型匹敌了GPT4的报告基准结果。此外，这是一个多模态模型，对视觉任务表现良好。值得注意的是，Claude的编码能力在此版本中得到了显著提高。

2024-03-01 talkingdev

PromptMM是一种使用多模态知识蒸馏的在线购物推荐系统，可以改善像亚马逊和TikTok这样的平台上的推荐系统。它通过从各种内容类型（视觉、文本或声音）中蒸馏出重要特征，来解决用户偏好的不准确性，并简化系统，以防...

2024-03-01 talkingdev

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈，并创建了Q-Pathway数据集，以分析其清晰度、色彩和亮度。

2024-02-23 talkingdev

众所周知，现代对话模型依赖于纯文本输入，因此在语言和视觉交互中，模型的表现力有限。为了克服这些限制，研究人员一直在探索多模态对话系统。在此背景下，ChatterBox是一种优秀的多模态对话模型，可在新建立的多模...

2024-02-23 talkingdev

近日，一种名为ChartX的新工具发布在GitHub上，用于测试多模态大语言模型（MLLM）在解释和推理可视化图表方面的能力。ChartX通过评估模型对图表的理解能力来测试其多模态能力，包括语言和视觉。该工具可以评估多种不...

2024-02-22 talkingdev

Contextual团队发布了一种能够同时生成文本和嵌入式编码的模型，名为生成式表征指导调整模型（Generative Representational Instruction Tuning）。该模型在多模态领域表现出色，远远超过了单一专家模型。这种模型的...

2024-02-20 talkingdev

谷歌发布了一款新的 MoE 模型，命名为 Gemini 1.5 Pro，它的性能可以与 Gemini 1.0 Ultra 媲美。同时，它支持上下文1百万令牌，并且相比较于 Gemini 1.0 Ultra，使用更少的计算资源，因为它更小巧。这个模型是本地多...