规模的相关内容 - 漫话开发者

2024-06-10 talkingdev

YOLO-World实现开放词汇对象检测创新

研究人员升级了流行的YOLO对象检测器，推出了YOLO-World，首次引入了开放词汇检测的概念。这种方法结合了视觉语言建模和大规模数据集训练，使其能够快速且准确地识别大量对象，即使在未特定训练的场景中也能表现出色...

2024-06-07 talkingdev

OpenAI团队在其最新的GPT-4模型中发现了1600万个可解释特征，包括价格变动、代数环以及谁/什么对应关系。这一发现大大推进了大规模SAE（自注意解释性）研究的进程。为了让研究人员和开发者更好地理解和利用这些特征...

2024-06-06 talkingdev

研究人员发现了一种方法，可以在无需进行矩阵乘法（MatMul）的情况下，依然保持大型语言模型的强大性能，甚至在参数规模达到数十亿时仍然有效。这一突破性技术有望显著提高计算效率，减少资源消耗，并为未来的AI模型...

2024-06-04 talkingdev

训练语言模型需要数万亿高质量的标记数据。关于这些数据集构建的信息大多未公开。然而，FineWeb团队在一篇精彩的博文中讨论了不同的数据集清理和过滤策略。文章的作者们发布了许多顶级的数据集，用于语言模型训练。...

2024-06-03 talkingdev

Conifer通过引入一个专门的数据集和渐进式学习方法，显著提升了大规模语言模型（LLM）对复杂指令的理解能力。该方法不仅能让LLM在处理复杂任务时表现得更为精准，还能有效减少错误率。专门的数据集涵盖了各类复杂指...

2024-06-03 talkingdev

muP 是一种被所有前沿模型实验室广泛使用的强大工具，用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型，从而显著提升训练性能，同时降低计算成本。通过muP，研...

2024-05-31 talkingdev

Yuan 2.0-M32是一款具备40亿参数的专家混合模型，其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19，但其性能却接近后者。该模型在2万亿个token上进行了训练，展现出了令人惊讶的强大性...

2024-05-31 talkingdev

在工程领域，团队规模和成本往往是企业关注的焦点。一个由几百人组成的工程团队，每年的工资支出可能高达5千万至1亿美元。然而，当高管们听到工程被视为艺术，其成果难以预测时，他们感到沮丧。工程领导者和其它高管...