漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-05-12 talkingdev

突破!A²RD框架实现超长连贯视频生成,AI视频生成迈入新阶段

在AI视频生成领域,生成连贯的长视频一直是一个技术难题。近期,一个名为A²RD的新型框架被提出,旨在解决这一挑战。A²RD代表“Agentic Autoregressive Diffusion”,即基于智能体的自回归扩散模型。该框架引入了一种独...

Read More
2026-04-30 talkingdev

Latent Diffusion突破文本推理瓶颈:苹果LaDiR框架让LLM思考更缜密

苹果机器学习研究团队提出了一种名为LaDiR(Latent Diffusion Reasoner)的创新推理框架,为大型语言模型(LLM)的文本推理能力带来了显著提升。LaDiR框架的核心在于巧妙地将连续潜在表示的强大表现力与潜在扩散模型...

Read More
2026-02-25 talkingdev

推理速度新标杆:Inception Labs发布Mercury 2,号称全球最快推理大语言模型

人工智能初创公司Inception Labs近日正式发布了其新一代大语言模型Mercury 2,并宣称该模型是“全球最快的推理语言模型”。其核心目标是让生产环境中的AI应用响应达到“瞬时”体验。Mercury 2的技术亮点在于其采用了创新...

Read More
2026-01-26 talkingdev

开源|字节跳动Seed团队发布Stable-DiffCoder:基于扩散模型的轻量级代码大语言模型

字节跳动Seed团队在GitHub上开源了Stable-DiffCoder项目,这是一个基于扩散模型(Diffusion Model)构建的轻量级代码大语言模型(Code DLLM)家族。该项目创新性地将扩散模型的生成范式引入代码建模领域,通过“块扩...

Read More
2025-11-15 talkingdev

AI世界时钟:九大模型实时渲染时间,展现生成式AI多元风格

由开发者Brian Moore创建的「AI世界时钟」项目,通过九种不同人工智能模型每分钟生成全新的时钟图像,生动展示了生成式AI在视觉创作领域的应用潜力。该项目在Hacker News社区获得880点讨论热度与293条深度评论,反映...

Read More
2025-10-21 talkingdev

BERT竟是单步文本扩散?谷歌DeepMind新研究揭示语言模型本质关联

近日,谷歌DeepMind团队发布的Gemini Diffusion实验性语言模型引发学界关注。该模型突破传统GPT逐词生成范式,采用扩散模型技术通过逐步去噪的方式直接生成完整文本块。研究人员在研读《大语言扩散模型》论文时发现...

Read More
2025-08-16 talkingdev

谷歌Gemini API全面开放Imagen 4系列模型,Imagen 4 Fast同步亮相

谷歌开发者博客宣布,其先进的文本生成图像模型Imagen 4系列现已在Gemini API中全面开放使用,同时推出性能优化的Imagen 4 Fast版本。这一里程碑式更新标志着多模态AI技术进入工业化应用阶段,开发者可基于该API实现...

Read More
2025-08-09 talkingdev

打造离线AI工作空间:一位开发者的本地化实践

近日,一篇题为《Building my offline AI workspace》的技术博客引发开发者社区广泛关注。作者详细记录了构建完全离线AI工作环境的技术实践,涉及本地化模型部署、数据隐私保护及离线开发工具链搭建等前沿议题。该方...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page