漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-12-18 talkingdev

开源|Chatterbox:支持情感控制与零样本语音克隆的SOTA开源TTS模型发布

近日,由Resemble AI团队在GitHub上开源了名为Chatterbox的文本转语音模型,标志着开源TTS领域迈入了一个新的技术高度。该项目被定位为当前最先进的开源TTS解决方案,其核心亮点在于集成了多语言支持、精细化的情感...

Read More
2025-12-18 talkingdev

OBS Studio迎来全新渲染器,直播与录屏性能有望大幅提升

知名开源直播与录屏软件OBS Studio近日宣布,其核心渲染引擎迎来重大更新。根据官方博客发布的公告,开发团队正在为OBS Studio引入一个全新的渲染器。这一底层技术革新旨在解决当前版本在特定硬件配置、高分辨率高帧...

Read More
2025-12-10 talkingdev

Saber:零样本参考图像生成视频新框架,无需昂贵三元组数据

近日,一项名为Saber的零样本视频生成框架引起了人工智能与计算机视觉领域的广泛关注。该框架的核心突破在于,能够仅依据单张参考图像和文本提示,生成与参考对象身份高度一致的高质量视频。其技术关键在于,整个训...

Read More
2025-12-09 talkingdev

论文推荐|无需人工标注!新型自训练框架让视觉语言模型学会自我评判

一项突破性的研究提出了一种无需任何人工偏好标注即可训练视觉语言模型评判者的全新框架。该框架的核心在于通过自我合成数据实现迭代式自训练,从而摆脱了对昂贵且易过时的人工标注的依赖。其工作流程分为三个阶段:...

Read More
2025-12-06 talkingdev

AI沟通教练Yoodli完成4000万美元B轮融资,估值突破3亿美元

总部位于西雅图的AI沟通训练软件公司Yoodli近日宣布完成4000万美元的B轮融资,本轮融资由WestBridge Capital领投,公司投后估值已超过3亿美元,较之前估值增长逾两倍。Yoodli由前谷歌工程师创立,其核心产品是一款基...

Read More
2025-12-06 talkingdev

Rust防御性编程模式:当‘这绝不该发生’成为现实

近日,Rust咨询公司corrode发布了一篇关于Rust语言防御性编程模式的技术博客,引发了开发者社区的广泛讨论。文章作者分享了一个引人深思的观察:每当在代码中看到‘// this should never happen’这类注释时,他都会尝...

Read More
2025-12-02 talkingdev

开源|ViBT:20B参数视觉桥接Transformer,高效图像与视频编辑新突破

近日,GitHub上开源了一个名为ViBT(Vision Bridge Transformer)的项目,该项目将布朗桥模型(Brownian Bridge Models)扩展至高达200亿参数规模,专门用于高效的图像与视频条件生成任务。ViBT的核心创新在于其采用...

Read More
2025-12-02 talkingdev

开源|苹果发布STARFlow与STARFlow-V:基于Transformer自回归流的图像与视频生成新突破

苹果公司在Hugging Face平台开源了STARFlow与STARFlow-V模型,标志着图像与视频生成领域迎来了一项重要的技术进展。STARFlow是一种创新的Transformer自回归流模型,其核心在于巧妙地将自回归模型强大的表达能力与归...

Read More
  1. Prev Page
  2. 17
  3. 18
  4. 19
  5. Next Page