漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-03 talkingdev

谷歌DeepMind发布Gemma 4:基于Gemma 3技术构建,支持140种语言的多模态推理

谷歌DeepMind近日正式发布了Gemma 4系列开源模型,标志着其在开放人工智能模型领域迈出了重要一步。该系列模型基于其旗舰Gemma 3技术构建,核心优化方向是“单位参数智能效率”,即在保持模型参数规模相对可控的同时,...

Read More
2026-04-03 talkingdev

通义千问Qwen3.6-Plus发布:迈向原生多模态智能体,开启“氛围编程”新体验

阿里云通义千问团队近日发布了其最新旗舰模型Qwen3.6-Plus,标志着其在构建面向真实世界的智能体(Agents)道路上迈出了关键一步。该模型在多模态感知与推理能力上实现了显著提升,能够更精准地理解世界,为开发者生...

Read More
2026-03-11 talkingdev

谷歌发布Gemini Embedding 2:首个统一多模态嵌入模型,支持超百种语言

谷歌近日正式推出了其新一代多模态嵌入模型Gemini Embedding 2,标志着人工智能在跨模态语义理解领域迈出了关键一步。该模型通过Gemini API和Vertex AI平台提供服务,其核心突破在于首次将文本、图像、视频、音频及...

Read More
2026-03-05 talkingdev

微软发布Phi-4推理视觉模型:15B参数实现多模态推理,懂得“何时思考”以提升效率

微软近日发布了Phi-4-reasoning-vision-15B,这是一款开源的、权重开放的多模态视觉AI模型。该模型仅包含150亿参数,却在数学、科学、文档及用户界面(UI)推理任务上,达到了与参数量大数倍的模型相当甚至更优的性...

Read More
2026-02-04 talkingdev

开源|GLM-OCR:集成CogViT与GLM-0.5B的多模态文档理解模型发布

近日,由zai-org团队在Hugging Face平台开源了GLM-OCR模型,这是一款专为复杂文档理解设计的先进多模态OCR系统。该模型的核心创新在于其精巧的三段式架构:首先,它采用了在大规模图文数据上预训练的CogViT视觉编码...

Read More
2026-01-23 talkingdev

开源|通义千问Qwen3-TTS系列全面开源:支持语音克隆、音色设计与多语言生成

阿里云旗下通义千问团队正式宣布,其Qwen3-TTS系列语音生成模型现已全面开源。该系列模型代表了当前语音合成领域的前沿技术水平,集成了语音克隆、音色设计、超高拟人度语音生成以及基于自然语言的语音控制等核心功...

Read More
2026-01-08 talkingdev

开源|Hugging Face发布FinePDFs:从PDF中解放3万亿高质量训练令牌

在开源人工智能社区中,PDF文档长期以来被视为一座未被充分挖掘的高质量数据金矿。近日,Hugging Face团队正式发布了其开创性的预训练数据集项目——FinePDFs,成功从海量PDF文档中提取并构建了一个规模超过3万亿令牌...

Read More
2025-12-23 talkingdev

图解Transformer经典:让复杂架构一目了然

一篇题为《图解Transformer》的技术博客在开发者社区Hacker News上引发了广泛关注,该博客由jalammar撰写,通过大量直观的图示和清晰的解释,深入浅出地剖析了Transformer这一革命性神经网络架构的核心工作原理。Tra...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page