图像生成的相关内容 - 漫话开发者

2025-04-30 talkingdev

CogView 4图像生成模型发布：性能超越Flux模型，开放许可引关注

清华大学知识工程组（KEG）与智谱AI联合推出的CogView 4最新一代生成式图像模型近日在Hugging Face平台正式发布。作为采用宽松许可协议的开源项目，该模型在图像质量、生成效率和多模态理解等核心指标上显著超越当前...

2025-04-28 talkingdev

Character.AI近日推出了一款名为AvatarFX的视频生成模型，该技术能够为AI生成的角色赋予动画效果，并支持从现有图像创建视频。尽管这一技术展现了巨大的潜力，但其可能被滥用于制作深度伪造（deepfake）视频的隐患也...

2025-04-23 talkingdev

Character.AI最新发布的AvatarFX技术，实现了从静态图像生成具有高度写实感和情感表现力的视频，其核心突破在于强大的时间一致性支持以及多说话人对话功能。该技术通过先进的深度学习算法，能够精准捕捉面部微表情和...

2025-04-21 talkingdev

最新研究通过两阶段优化策略，成功将自回归模型应用于个性化图像生成领域，其生成质量已达到当前主流的扩散模型水平。该论文提出创新性训练框架，第一阶段通过大规模数据集预训练构建基础模型，第二阶段采用针对性微...

2025-04-18 talkingdev

近日，一项名为REPA-E的技术突破引发了机器学习领域的广泛关注。该技术通过创新的表示对齐损失函数，首次实现了变分自编码器(VAE)与潜在扩散模型的稳定联合训练。这种端到端的训练方法在ImageNet数据集上取得了当前...

2025-04-17 talkingdev

OpenAI正式推出新一代o3和o4-mini模型，标志着大语言模型在功能整合与推理效率上的重大突破。该系列模型通过深度融合网络搜索、文件解析及图像生成三大核心能力，显著提升了ChatGPT的复杂任务处理水平。技术层面，o4...

2025-04-16 talkingdev

OpenAI目前处于开发自家类似X社交媒体网络的初级阶段，该公司已有包含专注于ChatGPT图像生成的社交信息流的内部原型。尚不清楚OpenAI计划推出该社交网络作为独立应用程序，还是计划将其整合进ChatGPT应用中。拥有社...

2025-04-15 talkingdev

近期，SilentView团队在GitHub开源了名为GigaTok的超大规模图像分词器项目，其参数量高达30亿（3B），在图像重建任务中展现出卓越性能。传统图像分词器在规模化过程中常面临性能崩溃问题，而GigaTok通过创新的解码器...