生成模型的相关内容 - 漫话开发者

2025-06-19 talkingdev

Midjourney发布首款AI视频生成模型V1，开启图像转视频新纪元

Midjourney公司正式推出其首款AI视频生成模型V1，该模型能够将任意静态图像转化为5秒的动态视频，标志着AI在多媒体内容生成领域的又一重大突破。尽管目前仅支持通过Discord平台使用，但其技术潜力不容小觑。据公司透...

2025-06-13 talkingdev

Bria最新发布的3.2版本AI图像生成模型在文本渲染领域实现技术突破，该模型采用100%经过授权的合规数据进行训练，为企业用户提供符合知识产权法规的AI解决方案。这一创新显著提升了生成图像中文本元素的准确性和自然...

2025-06-13 talkingdev

字节跳动旗下TikTok母公司最新发布的Seedance 1.0模型在文本生成视频（text-to-video）和图像生成视频（image-to-video）两项核心任务中均位列榜首，其性能表现超越谷歌Veo 3与OpenAI Sora等业界标杆。该模型仅需41...

2025-05-29 talkingdev

PixelFlow是近期在GitHub上开源的一个创新图像生成模型，其最大特点是直接在像素空间生成图像，无需依赖变分自编码器（VAE）。这一技术突破带来了显著的图像质量提升和更精细的语义控制能力，同时在生成效率和基准测...

2025-05-27 talkingdev

近日，FoD研究团队提出了一种基于均值回归随机微分方程的前向生成建模框架（Forward-Only Diffusion）。该技术突破性地实现了非马尔可夫采样过程，在图像生成任务中以更少的迭代步骤达到业界竞争力水平。传统扩散模...

2025-05-23 talkingdev

谷歌最新一期Release Notes播客深度解析了I/O 2025大会的AI技术突破，重点介绍了三大核心创新：1) Gemini 2.5 Pro Deep Think作为下一代多模态AI系统，通过增强的递归神经网络架构实现复杂逻辑推理，其万亿级参数规...

2025-05-22 talkingdev

谷歌最新发布的Gemini Diffusion标志着大语言模型架构的重大突破，这是该公司首次采用扩散模型（Diffusion Model）完全替代传统的Transformer架构。技术文档显示，该模型在保持与Gemini 2.0 Flash-Lite相当性能表现...

2025-05-21 talkingdev

在2025年谷歌I/O大会上，谷歌正式推出新一代生成式媒体模型Veo 3和Imagen 4，以及专为影视制作设计的新工具Flow。Veo 3作为视频生成模型的迭代版本，在动态细节和场景连贯性上实现突破；Imagen 4则进一步提升了文本...