漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2026-06-04 talkingdev

开源|Ideogram 4:全新架构文本生成图像模型,突破性JSON提示与2K分辨率

Ideogram 4 是一款最新的开源权重文本到图像生成模型,完全从零训练而非基于现有模型微调,代表了图像生成领域的一次重要技术迭代。该模型最引人注目的创新在于引入了一种结构化的JSON提示接口,彻底改变了传统自然...

Read More
2026-06-02 talkingdev

视频智能体模型是下一波浪潮 — xAI Grok Imagine 负责人 Ethan He 深度解读

在生成式AI的激烈竞争中,视频生成与世界模型正成为下一个前沿战场。Ethan He,这位曾领导NVIDIA Cosmos世界模型项目的核心人物,在加入xAI后仅用三个月便主导构建了Grok Imagine图像生成系统。在一篇长达98分钟的深...

Read More
2026-05-19 talkingdev

开源|HRM-Text:1B参数文本生成模型,训练成本仅为传统模型的几百分之一

近日,一款名为HRM-Text的新型文本生成模型在GitHub上开源,引发了AI社区的广泛关注。该模型基于HRM架构,参数规模为10亿(1B),但其最大的亮点在于惊人的训练效率。据项目介绍,HRM-Text的训练所需的计算资源和数...

Read More
2026-05-18 talkingdev

开源|GenCAD:用生成式AI革新计算机辅助设计,引发Hacker News热议

在计算机辅助设计(CAD)领域,生成式人工智能正展现出颠覆传统工作流的潜力。GenCAD项目正是这一趋势的典型代表。该项目旨在利用生成模型,直接根据用户的自然语言描述或简单草图,自动生成精确且可编辑的设计文件...

Read More
2026-04-27 talkingdev

论文推荐|Vision Banana通用视觉模型:将图像生成重定义为感知任务,刷新SOTA

来自arxiv的最新研究提出了一种名为Vision Banana的通用视觉模型,该模型的核心创新在于将传统的视觉感知任务重新表述为图像生成问题。通过指令微调(instruction-tuning)的图像生成模型,Vision Banana能够在多种...

Read More
2026-04-22 talkingdev

OpenAI发布ChatGPT Images 2.0:图像生成模型迎来重大升级,文本渲染与多语言支持显著增强

OpenAI正式推出ChatGPT Images 2.0,标志着其图像生成技术迈入新阶段。该模型基于前沿的生成式人工智能技术,在核心能力上实现了多维突破。首先,其文本渲染能力获得显著改善,能够更精准地将复杂文本提示转化为视觉...

Read More
2026-04-22 talkingdev

OpenAI发布图像生成提示工程权威指南,助力开发者打造高可控性生产级视觉内容

OpenAI近期在其官方开发者平台发布了一份详尽的《图像生成模型提示工程指南》,这份长达38分钟的阅读材料,标志着生成式AI在图像创作领域正从实验性探索迈向成熟、可控的生产级应用。该指南系统性地阐述了如何通过精...

Read More
2026-04-22 talkingdev

OpenAI发布ChatGPT Images 2.0:图像生成模型迎来重大升级,文本渲染与多模态推理能力显著提升

OpenAI近日正式推出了其图像生成模型的重大升级版本——ChatGPT Images 2.0。该版本标志着多模态人工智能技术迈入了新的阶段,其核心在于集成了一个先进的图像生成模型,该模型在多个关键技术指标上实现了显著突破。首...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page