最新研究显示,大型语言模型(LLM)的推理能力得益于预训练阶段发展出的程序性知识。程序性知识指的是一系列规则和步骤,这些知识在预训练过程中被模型学习并内化,进而在后续任务中被用来指导推理。这一发现强调了...
Read MoreSuperFlow是一种新的框架,通过使用连续的LiDAR-camera对进行时空预训练,增强了自动驾驶中的3D感知能力。在自动驾驶技术中,3D感知的重要性不言而喻,它可以帮助自动驾驶汽车更准确地理解周围环境,进行更安全、更...
Read MoreMeta推出了利用全新的多令牌预测方法的预训练模型,该方法可以同时预测多个未来的词汇,承诺提升性能并大幅度缩短训练时间。这种新颖的多令牌预测方法改变了我们对于未来词汇的预测方式,将其从单一的词汇预测转变为...
Read More在预训练中,如何积极选择下一批最好的样本是一个挑战性和开放性的问题。DeepMind的这项工作探索了如何只花费10%的浮点运算和硬挖掘负样本,仍然能匹配各种任务的最新技术。在这个过程中,他们采用了一种名为“联合样...
Read MoreCoqui.ai TTS是一款用于文本转语音的深度学习工具包,它支持多种语言和声音风格,并可在较低的计算资源上实现高质量的语音合成。该工具包基于TensorFlow 2和PyTorch,是一款开源、易于使用的工具,可帮助研究人员和...
Read More在自然语言处理(NLP)中,分块是指将句子分成更小的组块(块)的过程,每个块都有自己的语法和含义。在RAG(Retrieval-Augmented Generation)应用程序中,分块是生成响应的重要步骤。不同于传统的基于规则或基于统...
Read MorexAI近期公开发布了Grok-1模型的权重和架构。Grok-1是一种混合专家模型,拥有3140亿参数。发布的模型是Grok-1预训练阶段的原始基础模型检查点,这意味着它并未针对任何特定应用进行精调。该模型是由xAI使用自定义训练...
Read MoreWebLlama是一个设计精良的模型,能够浏览网页并据此回答相关问题。这种模型可用于生成高质量的预训练数据集,或者执行需要从网页查询信息的研究。WebLlama的目标是通过模型的训练,使其能够更好地理解和处理网络信息...
Read MoreBuzz是一个创新型的数据集,它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现,这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现,无疑为人工智能研究提供了新...
Read More近日,一个全新的Mamba模型引起了工业界的广泛关注。该模型通过使用对比性语言-图像预训练(CLIP)的方式进行训练,展现出在零样本图像分类任务上的出色效率和性能。据了解,零样本分类任务一直是计算机视觉领域的一个...
Read More