多模态AI的相关内容 - 漫话开发者

2025-11-30 talkingdev

NanoPDF：用Gemini Nano Banana模型通过自然语言编辑PDF演示文稿

开发者gavrielc基于谷歌最新Gemini 3 Pro Image模型（代号Nano Banana）推出开源CLI工具Nano PDF，实现了通过自然语言指令直接编辑PDF文档的技术突破。该工具将指定PDF页面转换为图像，结合用户文本提示调用多模态AI...

2025-11-23 talkingdev

近日上线的Fourty.News项目通过技术创新实现了独特的新闻阅读体验——将40年前的历史新闻经过AI处理重新编排成每日资讯。该项目采用多步骤大语言模型流水线技术：首先通过OCR将旧报纸扫描件转为文本，随后运用包含戏剧...

2025-11-20 talkingdev

Meta公司最新开源的Segment Anything Model 3（SAM 3）标志着图像分割技术进入全新发展阶段。该版本突破性地融合了文本与视觉双重提示能力，用户既可通过文字描述指定分割目标，也能通过点击、框选等视觉交互方式精...

2025-11-13 talkingdev

百度最新发布的开源多模态人工智能模型ERNIE-4.5-VL-28B-A3B-Thinking在技术架构上实现重大突破。该模型采用280亿参数规模，但通过创新的动态路由架构，在推理时仅激活30亿参数，即可在多项任务性能上媲美甚至超越规...

2025-11-12 talkingdev

近日，长期开发iOS照片应用的科技团队LateNiteSoft发布了一项针对三大前沿AI图像生成模型的深度评测。该研究通过600余次真实场景的图像生成测试，系统评估了OpenAI的gpt-image-1、Google的nanoBanana（Gemini）以及S...

2025-11-11 talkingdev

Meta旗下Facebook Research团队在GitHub开源了Omnilingual ASR多语言语音识别系统，这项突破性技术首次实现对全球1600余种语言的语音转文本支持，其中数百种语言是现有ASR技术从未覆盖的濒危语种。该系统采用创新的...

2025-11-11 talkingdev

Meta近日发布了名为'全语种自动语音识别'（Omnilingual Automatic Speech Recognition）的AI模型套件，这项突破性技术将自动语音识别能力扩展到1600多种语言，覆盖全球绝大多数已知语言体系。该系统的核心创新在于其...

2025-10-28 talkingdev

人工智能初创公司Decart与语音技术领军企业ElevenLabs合作，推出开源实时唇形同步API技术。该技术通过实时音频流输入，可生成精准同步的虚拟人像视频与语音输出，支持任意语音引擎与自定义角色配置。这项突破性技术...