模型性能的相关内容 - 漫话开发者

2024-05-31 talkingdev

论文：Yuan 2.0-M32，具备注意力路由的MOE专家混合模型

Yuan 2.0-M32是一款具备40亿参数的专家混合模型，其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19，但其性能却接近后者。该模型在2万亿个token上进行了训练，展现出了令人惊讶的强大性...

2024-05-31 talkingdev

随着大型语言模型性能的提升，其对能源和计算能力的渴求也随之增加。为降低成本，提高处理速度，同时减少对环境的影响，模型需要实现更小型化。研究人员目前采用一种名为量化的技术，通过减少模型参数的精度来压缩网...

2024-05-28 talkingdev

近日，计算机科学家们推出了一款名为Llama 3-V的新型人工智能模型，其与GPT4-V性能相当，但模型大小只有GPT4-V的1/100。与GPT4-V的高昂价格相比，Llama 3-V仅需500美元即可获得。这款新型模型可以应用于自然语言处理...

2024-05-20 talkingdev

谷歌近日发布了一款名为 'Model Explorer' 的模型探索器，该工具可以帮助用户轻松查看并审查自己的模型计算图。这项新的工具对于调试和性能工程来说相当有用。Model Explorer以GitHub Repo形式存在，用户可以方便地...

2024-05-09 talkingdev

QoQ，一种新型量化算法，通过使用4位权重、8位激活和4位KV缓存，加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术，它能够减少模型的存储需求和计算复杂性。在这种情况下，QoQ算法采用了较低精度的数...

2024-04-11 talkingdev

策略引导扩散（Policy-Guided Diffusion）是一种新颖的训练代理的方法，适用于离线环境。该技术通过创建与行为和目标策略都非常接近的综合轨迹，从而生成更加真实的训练数据。这不仅有助于提高离线强化学习模型的性...

2024-04-03 talkingdev

AutoQuant 笔记本是一个新的工具，它可以将 HuggingFace 上的模型导出为五种不同的量化格式，包括 GGUF、GPTQ、EXL2、AWQ 和 HQQ。这些量化格式旨在优化模型的性能和效率，以便在不同的硬件和平台上部署。通过使用 A...

2024-04-03 talkingdev

HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成，还包括对数据进行精心的筛选和过滤，以确保其在模型训练中的有效性和准确性。通过这种方...