预训练的相关内容 - 漫话开发者

2024-05-20 talkingdev

xAI公开发布具有3140亿参数的Grok-1模型

xAI近期公开发布了Grok-1模型的权重和架构。Grok-1是一种混合专家模型，拥有3140亿参数。发布的模型是Grok-1预训练阶段的原始基础模型检查点，这意味着它并未针对任何特定应用进行精调。该模型是由xAI使用自定义训练...

2024-05-14 talkingdev

WebLlama是一个设计精良的模型，能够浏览网页并据此回答相关问题。这种模型可用于生成高质量的预训练数据集，或者执行需要从网页查询信息的研究。WebLlama的目标是通过模型的训练，使其能够更好地理解和处理网络信息...

2024-05-10 talkingdev

Buzz是一个创新型的数据集，它在预训练中融合了偏好数据。该数据集的研究者们还发布了几个利用这些数据训练的模型。他们发现，这些模型在许多人类偏好任务上表现出色。Buzz数据集的出现，无疑为人工智能研究提供了新...

2024-05-02 talkingdev

近日，一个全新的Mamba模型引起了工业界的广泛关注。该模型通过使用对比性语言-图像预训练(CLIP)的方式进行训练，展现出在零样本图像分类任务上的出色效率和性能。据了解，零样本分类任务一直是计算机视觉领域的一个...

2024-04-29 talkingdev

近日，Meta推出了全新的Llama模型预训练框架——Torchtitan。该框架是完全使用PyTorch编写的，具有高度的灵活性和易用性。对于广大的PyTorch用户和开发者来说，这是一个利好消息。Meta是全球最大的社交网络公司，其在...

2024-04-10 talkingdev

SwapAnything是一项革命性的新技术，能够在图像中任意替换对象，同时保持图片其余部分不变。与传统工具相比，SwapAnything的优势在于它可以替换任何对象，而不仅限于主要焦点。此外，它在将新对象自然融入原始图像方...

2024-04-09 talkingdev

Seg-NN框架通过去除对大量预训练的需求，极大地优化了3D分割的流程。这一创新使得模型能够快速适应新的、未见过的类别，同时避免了通常存在的领域差异问题。这一技术突破不仅加快了3D物体识别的速度，还提高了模型的...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...