视觉任务的相关内容 - 漫话开发者

2026-05-19 talkingdev

阿里Qwen3.7预览版登陆Arena，文本与视觉双赛道排名飙升

阿里巴巴通义千问团队近日在Arena平台上发布了Qwen3.7预览版，涵盖文本和视觉两大核心能力。据悉，Qwen3.7 Max Preview在文本竞技场中位列第13名，而Qwen3.7 Plus Preview则在视觉竞技场中排名第16，显示出阿里在大...

2026-05-01 talkingdev

智谱AI团队发布的最新研究成果GLM-5V-Turbo，在人工智能领域迈出了关键一步。该模型的核心创新在于将多模态感知能力直接内嵌到模型的推理过程和工具使用中，而非作为独立的预处理步骤。这意味着模型能够同时处理并理...

2026-04-27 talkingdev

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型，该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调（instruction-tuning）的图像生成模型，Vision Banana能够在多种...

2026-03-19 talkingdev

百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL（Qianfan-VL）。该系列模型并非通用型多模态模型的简单变体，而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...

2025-12-15 talkingdev

人工智能平台Tinker今日宣布结束等待名单，正式向所有用户开放，并同步推出多项重要技术更新。本次更新的核心亮点包括：引入全新的推理模型Kimi K2 Thinking，该模型拥有万亿级参数，专为处理长链条复杂推理和工具调...

2025-05-16 talkingdev

OpenThinkIMG项目为视觉语言模型(VLMs)提供了革命性的视觉工具调用框架，其核心技术突破体现在三个方面：首先，通过动态推理机制实现多工具链式调用，使AI能根据图像内容自主选择处理工具；其次，创新的V-ToolRL强化...

2025-04-18 talkingdev

近日，OpenAI的ChatGPT在知名地理定位游戏GeoGuesser中展现出卓越的表现，标志着其在空间理解和图像解析能力上的显著提升。GeoGuesser要求玩家根据随机提供的街景图像精确定位地理位置，而ChatGPT通过结合多模态学习...

2025-04-04 talkingdev

清华大学智能图形学与几何计算实验室（THU-MIG）在GitHub上开源了名为Large Small Net（LSNet）的新型轻量级视觉模型家族。该模型创新性地借鉴了人类视觉系统的动态异尺度处理能力（"See Large, Focus Small"机制）...