阿里巴巴通义千问团队近日在Arena平台上发布了Qwen3.7预览版,涵盖文本和视觉两大核心能力。据悉,Qwen3.7 Max Preview在文本竞技场中位列第13名,而Qwen3.7 Plus Preview则在视觉竞技场中排名第16,显示出阿里在大...
Read MoreOpenAI近日在API中正式推出了一系列全新的实时音频模型,标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型:GPT-Realtime-2,专注于增强对话式推理能力,能够实现更自然、更具逻辑性的实时语音对话;G...
Read MoreAnthropic Labs今日正式发布Claude Design,标志着生成式AI在专业视觉创作领域迈出关键一步。该产品基于Claude Opus 4.7多模态视觉模型构建,能够协助用户高效生成设计原型、商业演示文稿、营销单页等视觉内容。其核...
Read More百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL(Qianfan-VL)。该系列模型并非通用型多模态模型的简单变体,而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...
Read More智谱AI近日正式开源了其新一代多模态大模型系列——GLM-4.6V。该系列包含两个关键版本:GLM-4.6V(106B)和GLM-4.6V-Flash(9B)。前者是面向云端和高性能集群场景设计的基础模型,后者则是为本地部署和低延迟应用优化...
Read More根据麦肯锡最新发布的AI年度报告,当前大多数企业仍处于人工智能技术的实验性探索或试点应用阶段。值得注意的是,行业领先企业正通过AI技术实现三重突破:驱动业务增长引擎、构建创新产品生态、优化运营成本结构。报...
Read More近日,开发者通过Google AI Studio的A/B测试功能,意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准,通过对比不同版本模型的输出质量,间接验证了新一代模型在复杂结构化数据...
Read More近期发布的表征自编码器(RAE)技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器(VAE),结合学习型解码器构建高维潜在空间。实验表明,这种新型架构能显著提...
Read More