语言模型的相关内容 - 漫话开发者

2025-03-18 talkingdev

[开源]面向语音的多模态LLM框架MMS-LLaMA发布

MMS-LLaMA是一款高效的多模态语音大语言模型框架，专注于自动视觉语音识别（AVSR），在优化标记长度的同时保留了语言内容。该框架通过整合视觉和语音数据，提供了一种全新的方法来提升语音识别的准确性和效率。MMS-L...

2025-03-18 talkingdev

Funsearch是一种基于大型语言模型（LLM）驱动的遗传算法新实现，旨在帮助数学家解决组合和数论问题，而无需具备机器学习的专业知识。这项创新技术通过结合遗传算法的优化能力与LLM的生成能力，为数学研究提供了全新...

2025-03-17 talkingdev

近期，OpenAI、微软和Meta等领先的人工智能公司正在通过“蒸馏”技术，利用大型语言模型（LLM）作为“教师”来训练更小的系统，从而创建更具成本效益的AI模型。这种技术通过将复杂模型的知识“蒸馏”到更轻量级的模型中，...

2025-03-17 talkingdev

HiRAG（Hierarchical Retrieval-Augmented Generation）是一种创新的分层知识增强生成方法，旨在提升检索增强生成（RAG）技术在特定领域任务中的语义理解和索引能力。RAG技术通过将外部知识库与大型语言模型（LLM）...

2025-03-17 talkingdev

近日，GitHub上发布了一个名为'Visual reasoning models'的开源工具包，旨在训练视觉语言模型（VLMs）以提升其基础逻辑和推理能力。该工具包由groundlight团队开发，主要专注于增强模型在处理复杂视觉数据时的理解和...

2025-03-14 talkingdev

Nous Research近日推出了Inference API，旨在为开发者和研究人员提供其个性化的、无限制的语言模型访问权限。该API支持两种模型：Hermes 3 Llama 70B和DeepHermes-3 8B Preview，并通过候补名单系统管理需求，增加其...

2025-03-14 talkingdev

近日，GitHub上发布了一个名为REF-VLM的开源项目，该项目通过引入基于三元组的结构化表示，统一了多模态大语言模型（LLMs）中的视觉解码任务。多模态LLMs是当前人工智能领域的前沿技术，能够在处理视觉和文本信息时...

2025-03-14 talkingdev

多模态表示学习（MMRL）技术通过引入一个共享的表示空间，显著提升了视觉-语言模型在处理多模态信息时的交互能力，同时保持了模型的泛化性能。这一技术不仅优化了多模态数据的融合与理解，还为小样本学习（few-shot...