漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架,专注于自动视觉语音识别(AVSR),在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据,提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

Read More
2025-03-14 talkingdev

[开源]统一视觉解码:REF-VLM革新多模态大模型任务

近日,GitHub上发布了一个名为REF-VLM的开源项目,该项目通过引入基于三元组的结构化表示,统一了多模态大语言模型(LLMs)中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术,能够在处理视觉和文本信息时...

Read More
2025-03-10 talkingdev

概率人工智能:技术前沿与应用展望

概率人工智能(Probabilistic Artificial Intelligence)作为人工智能领域的重要分支,近年来在学术界和工业界引起了广泛关注。其核心思想是通过概率模型来处理不确定性问题,从而提升AI系统的决策能力和鲁棒性。与...

Read More
2025-03-05 talkingdev

VARGPT:统一视觉理解与生成的多模态大语言模型

VARGPT是一种多模态大语言模型(MLLM),其独特之处在于将视觉理解与生成功能统一在一个自回归框架内。这一创新设计使得VARGPT能够同时处理文本和图像数据,实现更高效的跨模态信息处理。通过自回归机制,VARGPT不仅...

Read More
2025-03-04 talkingdev

LLM自我奖励修正机制在数学推理中的突破性研究

近日,一项关于LLM(大语言模型)自我奖励推理的研究引起了广泛关注。该研究提出了一种创新的两阶段训练框架,使模型能够独立生成推理步骤、自我评估正确性,并在无需外部反馈的情况下迭代优化输出。这一框架结合了...

Read More
2025-02-27 talkingdev

SubPOP发布大规模数据集,助力LLM精准预测公众调查结果

近日,SubPOP发布了一个大规模数据集,专门用于微调LLM(大语言模型),以预测调查响应分布。该数据集通过减少预测差距,显著提升了模型在未见过的调查数据上的泛化能力。这一技术突破为公众意见预测提供了更精准的...

Read More
2025-02-26 talkingdev

EmbodiedEval:全新交互式基准测试助力MLLM在具身任务中的能力评估

近日,EmbodiedEval作为一种全面且交互式的基准测试工具正式亮相,旨在评估多模态大语言模型(MLLMs)在具身任务中的表现。具身任务是指模型需要在物理环境中执行具体操作的任务,这对模型的感知、推理和执行能力提...

Read More
2025-02-25 talkingdev

LLM-SRec革新推荐系统:无需微调即可提升序列推荐精度

近日,LLM-SRec技术通过将用户序列行为直接整合到LLM(大语言模型)中,显著提升了推荐系统的准确性,且无需进行额外的模型微调。这一创新方法不仅简化了推荐系统的开发流程,还实现了推荐精度的新突破,成为当前推...

Read More
  1. Prev Page
  2. 14
  3. 15
  4. 16
  5. Next Page