漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-07 talkingdev

稳定扩散 3:研究论文

稳定扩散 3 通过其新颖的多模态扩散转换器架构,通过文本和图像的分别处理权重,提高了提示理解和排版,优于领先的文本到图像模型,为AI生成的视觉内容带来了进步。

Read More
2024-03-06 talkingdev

Anthropic发布Claude 3家族的三个新模型,最强模型匹敌GPT4

Anthropic最近发布了Claude 3家族的三个新模型,其中最强的模型匹敌了GPT4的报告基准结果。此外,这是一个多模态模型,对视觉任务表现良好。值得注意的是,Claude的编码能力在此版本中得到了显著提高。

Read More
2024-03-01 talkingdev

论文:PromptMM使用LLM知识蒸馏的在线购物推荐系统

PromptMM是一种使用多模态知识蒸馏的在线购物推荐系统,可以改善像亚马逊和TikTok这样的平台上的推荐系统。它通过从各种内容类型(视觉、文本或声音)中蒸馏出重要特征,来解决用户偏好的不准确性,并简化系统,以防...

Read More
2024-03-01 talkingdev

论文:AI模型的视觉感知能力得到提升

本研究致力于提高基于多模态的GPT-4V等模型在低级视觉感知任务中的表现。大规模实验从58,000名人类受试者中收集了18,973张图像的反馈,并创建了Q-Pathway数据集,以分析其清晰度、色彩和亮度。

Read More
2024-02-23 talkingdev

开源多模态对话模型ChatterBox

众所周知,现代对话模型依赖于纯文本输入,因此在语言和视觉交互中,模型的表现力有限。为了克服这些限制,研究人员一直在探索多模态对话系统。在此背景下,ChatterBox是一种优秀的多模态对话模型,可在新建立的多模...

Read More
2024-02-23 talkingdev

ChartX:测试多模态语言模型理解视觉数据的可视化工具

近日,一种名为ChartX的新工具发布在GitHub上,用于测试多模态大语言模型(MLLM)在解释和推理可视化图表方面的能力。ChartX通过评估模型对图表的理解能力来测试其多模态能力,包括语言和视觉。该工具可以评估多种不...

Read More
2024-02-22 talkingdev

论文:Contextual发布生成式表征指导调整模型

Contextual团队发布了一种能够同时生成文本和嵌入式编码的模型,名为生成式表征指导调整模型(Generative Representational Instruction Tuning)。该模型在多模态领域表现出色,远远超过了单一专家模型。这种模型的...

Read More
2024-02-20 talkingdev

谷歌发布 Gemini 1.5 Pro,性能匹敌 Gemini 1.0 Ultra,支持上下文1百万令牌

谷歌发布了一款新的 MoE 模型,命名为 Gemini 1.5 Pro,它的性能可以与 Gemini 1.0 Ultra 媲美。同时,它支持上下文1百万令牌,并且相比较于 Gemini 1.0 Ultra,使用更少的计算资源,因为它更小巧。这个模型是本地多...

Read More
  1. Prev Page
  2. 21
  3. 22
  4. 23
  5. Next Page