漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-06-27 talkingdev

谷歌发布多模态开源模型Gemma 3n:支持文本、图像和音频输入

谷歌近日发布了具有重大意义的新开源权重模型Gemma 3n,该模型采用多模态设计,专为设备端优化。Gemma 3n能够接受文本、图像和音频作为输入,展现了强大的跨模态处理能力。为推广该模型,谷歌与AMD、Axolotl、Docker...

Read More
2025-06-25 talkingdev

谷歌发布Imagen 4:图像文本生成能力显著提升

谷歌最新推出的Imagen 4模型在图像内文本生成这一长期困扰行业的技术难题上取得重大突破。该模型通过先进的深度学习架构优化,显著提升了生成图像中文本元素的准确性和自然度,解决了以往AI生成图像中文字扭曲、语义...

Read More
2025-06-24 talkingdev

[论文推荐]SeLoRA技术突破:通过稀疏谱子空间重构削减LoRA冗余参数

来自arXiv的最新研究论文提出SeLoRA(Spectral-efficient Low-Rank Adaptation)技术,通过将LoRA适配器重新参数化为稀疏谱子空间,在保持模型表达能力的前提下显著减少冗余参数。该技术在多模态任务测试中表现突出...

Read More
2025-06-23 talkingdev

Character.AI任命前Meta高管Karandeep Anand为新任CEO,加速多模态娱乐领域布局

人工智能交互平台Character.AI近日宣布重大人事变动,前Meta商业产品负责人Karandeep Anand正式出任首席执行官。Anand此前曾担任公司顾问,此次履新将主导该平台在多模态娱乐领域的战略扩张。作为Meta系资深专家,An...

Read More
2025-06-20 talkingdev

[论文推荐]生成式口语语言模型自然度提升新突破:端到端变分编码器实现自动韵律学习

一项发表于arXiv的突破性研究提出新型端到端变分编码器架构,通过自动学习韵律特征替代传统手工设计的音高输入,显著提升生成式口语语言模型的自然度表现。该技术摒弃了人工特征工程,直接对语义语音标记与韵律特征...

Read More
2025-06-20 talkingdev

LLM时代推荐与搜索系统的革新:语义ID与生成式检索的崛起

在大型语言模型(LLM)时代,推荐与搜索系统正经历从传统物品ID到丰富'语义ID'(Semantic IDs)的重大转型。这一变革引入了生成式检索和多模态嵌入技术,显著提升了系统处理冷启动覆盖、长尾内容发现的能力,并实现...

Read More
2025-06-17 talkingdev

DeepSeek R1-0528与FLUX.1 Kontext图像编辑模型登陆Together AI平台,推理API与聊天应用免费体验

Together AI宣布在其Serverless Inference API和专用端点服务中集成两大前沿AI模型:DeepSeek R1-0528语言模型与FLUX.1 Kontext图像生成系统。DeepSeek R1-0528通过升级的推理能力、函数调用支持及代码生成优化,显...

Read More
2025-06-16 talkingdev

LLM地理定位能力突破?开源情报测试揭示AI模型新进展

开源情报研究团队近期对20个AI模型进行了500次地理定位挑战测试,采用未公开的旅行照片以防止模型依赖记忆数据。测试结果显示,OpenAI最新模型通过交叉参照建筑风格、植被特征及局部可见文本,表现超越Google Lens等...

Read More
  1. Prev Page
  2. 2
  3. 3
  4. 4
  5. Next Page