漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-07-03 talkingdev

Gemini 2.5模型为机器人技术与具身智能带来突破性进展

谷歌最新发布的Gemini 2.5模型在机器人技术和具身智能领域实现了重要突破。该模型通过增强的编码能力、推理能力和多模态处理能力,特别是基于空间理解的技术创新,为开发者提供了强大的工具。开发者可利用Gemini 2.5...

Read More
2025-07-03 talkingdev

谷歌Veo 3视频生成模型:迈向可交互世界模型的第一步?

谷歌最新发布的视频生成模型Veo 3展现出突破性潜力,其技术路线可能为游戏开发领域带来革新。与传统视频生成模型不同,世界模型(World Models)的核心在于模拟真实环境的动态交互机制,而Veo 3虽尚未达到完整世界模...

Read More
2025-06-27 talkingdev

谷歌发布多模态开源模型Gemma 3n:支持文本、图像和音频输入

谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n,该模型采用多模态设计,专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入,展现了强大的跨模态处理能力。为推广该模型,谷歌与AMD、Axolotl、Docker...

Read More
2025-06-25 talkingdev

谷歌发布Imagen 4:图像文本生成能力显著提升

谷歌最新推出的Imagen 4模型在图像内文本生成这一长期困扰行业的技术难题上取得重大突破。该模型通过先进的深度学习架构优化,显著提升了生成图像中文本元素的准确性和自然度,解决了以往AI生成图像中文字扭曲、语义...

Read More
2025-06-17 talkingdev

DeepSeek R1-0528与FLUX.1 Kontext图像编辑模型登陆Together AI平台,推理API与聊天应用免费体验

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型:DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化,显...

Read More
2025-06-13 talkingdev

ReVisiT-提升视觉语言模型的视觉定位能力

近期在GitHub上开源的ReVisiT项目,通过创新性地利用内部视觉标记(vision tokens)引导生成过程,显著提升了大型视觉语言模型(LVLM)的视觉定位能力。这一技术突破解决了当前多模态模型在生成文本时与视觉内容对齐...

Read More
2025-06-10 talkingdev

Hugging Face推出ScreenSuite:标准化评估GUI智能体的新基准套件

Hugging Face最新发布的ScreenSuite是一款专为评估视觉语言模型(Vision-Language Models, VLMs)在图形用户界面(GUI)智能体任务中表现而设计的基准测试套件。该工具通过提供标准化的评估框架,填补了当前多模态模...

Read More
2025-05-30 talkingdev

[开源]Meta提出零样本嫁接技术:降低VLM训练成本45%

Meta研究团队最新提出的零样本嫁接(zero-shot grafting)方法,通过从大型语言模型(LLM)的浅层中提取小型代理模型来训练视觉编码器,实现了视觉语言模型(VLM)训练成本降低约45%的突破。该技术不仅显著降低了计...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page