漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-04-08 talkingdev

开源|Clicky:macOS上的AI“桌面伙伴”,实时看屏、语音交互与光标指点

近日,一个名为Clicky的开源项目在GitHub上发布,为macOS用户带来了一种新颖的人机交互体验。该项目本质上是一个运行在光标侧的AI“教师”或“伙伴”,能够实时“看到”用户屏幕内容,并通过语音与用户交流,甚至能直接“指...

Read More
2026-04-03 talkingdev

谷歌DeepMind发布Gemma 4:基于Gemma 3技术构建,支持140种语言的多模态推理

谷歌DeepMind近日正式发布了Gemma 4系列开源模型,标志着其在开放人工智能模型领域迈出了重要一步。该系列模型基于其旗舰Gemma 3技术构建,核心优化方向是“单位参数智能效率”,即在保持模型参数规模相对可控的同时,...

Read More
2026-04-03 talkingdev

通义千问Qwen3.6-Plus发布:迈向原生多模态智能体,开启“氛围编程”新体验

阿里云通义千问团队近日发布了其最新旗舰模型Qwen3.6-Plus,标志着其在构建面向真实世界的智能体(Agents)道路上迈出了关键一步。该模型在多模态感知与推理能力上实现了显著提升,能够更精准地理解世界,为开发者生...

Read More
2026-03-28 talkingdev

开源|AI信息聚合新突破:last30days-skill智能体跨平台调研,一键生成深度综述

近日,GitHub上开源项目last30days-skill引发科技界广泛关注。该项目是一个AI智能体技能,能够针对用户指定的任何主题,自动在Reddit、X(原Twitter)、YouTube、Hacker News、Polymarket以及整个开放网络中进行实时...

Read More
2026-03-19 talkingdev

开源|百度发布千帆VL系列企业级视觉语言模型,专攻文档解析与复杂视觉推理

百度近期在GitHub上开源了其企业级视觉语言模型系列——千帆VL(Qianfan-VL)。该系列模型并非通用型多模态模型的简单变体,而是针对工业场景进行了深度优化和增强的专用模型。其核心设计目标是解决企业级应用中的实际...

Read More
2026-03-14 talkingdev

Claude重磅更新:Opus 4.6与Sonnet 4.6全面开放100万上下文窗口,取消长文本溢价

人工智能公司Anthropic正式宣布,其旗舰模型Claude Opus 4.6和Sonnet 4.6现已全面开放100万上下文窗口的常规使用。此次更新的核心在于,标准定价将适用于完整的100万token上下文窗口,彻底取消了此前针对长上下文的...

Read More
2026-03-11 talkingdev

谷歌发布Gemini Embedding 2:首个统一多模态嵌入模型,支持超百种语言

谷歌近日正式推出了其新一代多模态嵌入模型Gemini Embedding 2,标志着人工智能在跨模态语义理解领域迈出了关键一步。该模型通过Gemini API和Vertex AI平台提供服务,其核心突破在于首次将文本、图像、视频、音频及...

Read More
2026-03-05 talkingdev

微软发布Phi-4推理视觉模型:15B参数实现多模态推理,懂得“何时思考”以提升效率

微软近日发布了Phi-4-reasoning-vision-15B,这是一款开源的、权重开放的多模态视觉AI模型。该模型仅包含150亿参数,却在数学、科学、文档及用户界面(UI)推理任务上,达到了与参数量大数倍的模型相当甚至更优的性...

Read More
  1. Prev Page
  2. 3
  3. 4
  4. 5
  5. Next Page