商业应用的相关内容 - 漫话开发者

2025-05-13 talkingdev

[开源]LLMs在多轮对话中表现显著下降（GitHub仓库）

最新研究发现，大型语言模型（LLMs）在多轮对话任务中的表现存在显著缺陷。根据微软在GitHub上公开的研究项目数据显示，由于模型可靠性和早期错误假设问题，LLMs在多轮对话中的任务表现平均下降了39%。这一发现对当...

2025-04-30 talkingdev

人工智能研究机构Inception Labs近日正式发布了商用级扩散语言模型Mercury，标志着自然语言处理技术向大规模商业化应用迈出重要一步。该模型基于先进的扩散概率模型框架，通过多阶段训练策略实现了文本生成的稳定性...

2025-04-23 talkingdev

Character.AI最新发布的AvatarFX技术，实现了从静态图像生成具有高度写实感和情感表现力的视频，其核心突破在于强大的时间一致性支持以及多说话人对话功能。该技术通过先进的深度学习算法，能够精准捕捉面部微表情和...

2025-04-21 talkingdev

谷歌最新宣布，Gemini Advanced用户即日起可利用Veo 2模型实现文本到视频的AI生成能力。这项突破性技术可将自然语言描述直接转化为1080P分辨率、具有电影质感的动态影像，标志着多模态AI在视频创作领域的重大进展。V...

2025-04-21 talkingdev

一项突破性研究提出通过预计算上下文相关量来降低大型语言模型(LLM)推理成本的新方法。该技术利用模型空闲时间预先处理可能用到的上下文信息，在用户查询到来时能直接调用预计算结果。实验数据显示，这种方法可节省...

2025-03-05 talkingdev

近日，一项名为DiffRhythm的技术引起了广泛关注。该技术利用Latent Diffusion模型实现了端到端的全长度歌曲生成，尽管其生成效果尚未达到顶尖闭源模型的水平，但其速度和简洁性令人印象深刻。DiffRhythm的核心优势在...

2024-10-14 talkingdev

Play 3.0 mini是一款轻量级的多语种文本转语音（TTS）模型，专为追求成本效益和可靠性的用户设计。该模型在多个语言之间提供高质量的语音输出，适用于各种应用场景，从教育到娱乐，兼具灵活性和实用性。Play 3.0 min...

2024-06-12 talkingdev

近日，一种名为人类高斯模型（Human Gaussian Model，简称HGM）的新型框架引起了科技界的关注。它能够仅通过一张图片，就实现3D人类模型的构建。这种框架以扩散为引导，将2D信息转化为3D模型，实现了在人体建模领域...