漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-19 talkingdev

阿里Qwen3.7预览版登陆Arena,文本与视觉双赛道排名飙升

阿里巴巴通义千问团队近日在Arena平台上发布了Qwen3.7预览版,涵盖文本和视觉两大核心能力。据悉,Qwen3.7 Max Preview在文本竞技场中位列第13名,而Qwen3.7 Plus Preview则在视觉竞技场中排名第16,显示出阿里在大...

Read More
2026-05-08 talkingdev

OpenAI再掀语音革命:发布GPT-Realtime多模态实时音频模型,开启对话式AI新纪元

OpenAI近日在API中正式推出了一系列全新的实时音频模型,标志着语音交互技术迈入了一个全新阶段。该系列包括三款核心模型:GPT-Realtime-2,专注于增强对话式推理能力,能够实现更自然、更具逻辑性的实时语音对话;G...

Read More
2026-04-20 talkingdev

Anthropic推出Claude Design:基于Opus 4.7视觉模型,AI驱动设计协作新范式

Anthropic Labs今日正式发布Claude Design,标志着生成式AI在专业视觉创作领域迈出关键一步。该产品基于Claude Opus 4.7多模态视觉模型构建,能够协助用户高效生成设计原型、商业演示文稿、营销单页等视觉内容。其核...

Read More
2026-03-19 talkingdev

开源|百度发布千帆VL系列企业级视觉语言模型,专攻文档解析与复杂视觉推理

百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL(Qianfan-VL)。该系列模型并非通用型多模态模型的简单变体,而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...

Read More
2025-12-10 talkingdev

开源|智谱AI发布GLM-4.6V系列多模态大模型:原生工具调用与128K上下文窗口

智谱AI近日正式开源了其新一代多模态大模型系列——GLM-4.6V。该系列包含两个关键版本:GLM-4.6V(106B)和GLM-4.6V-Flash(9B)。前者是面向云端和高性能集群场景设计的基础模型,后者则是为本地部署和低延迟应用优化...

Read More
2025-11-10 talkingdev

2025年AI发展态势:智能体、创新与产业变革全景透视

根据麦肯锡最新发布的AI年度报告,当前大多数企业仍处于人工智能技术的实验性探索或试点应用阶段。值得注意的是,行业领先企业正通过AI技术实现三重突破:驱动业务增长引擎、构建创新产品生态、优化运营成本结构。报...

Read More
2025-10-17 talkingdev

Gemini 3.0通过A/B测试意外曝光:SVG生成质量成关键指标

近日,开发者通过Google AI Studio的A/B测试功能,意外捕捉到尚未正式发布的Gemini 3.0模型踪迹。该测试以SVG矢量图形生成作为核心评估标准,通过对比不同版本模型的输出质量,间接验证了新一代模型在复杂结构化数据...

Read More
2025-10-15 talkingdev

表征自编码器革新扩散Transformer:多模态预训练模型驱动图像生成质量突破

近期发布的表征自编码器(RAE)技术为潜在扩散模型带来重大升级。该技术通过使用DINO、SigLIP或MAE等预训练编码器替代传统变分自编码器(VAE),结合学习型解码器构建高维潜在空间。实验表明,这种新型架构能显著提...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page