计算成本的相关内容 - 漫话开发者

2025-01-28 talkingdev

论文：基础模型参数高效微调技术综述

本文综述了基础模型的参数高效微调技术，深入探讨了在保持多样化任务性能的同时，如何最小化计算成本的方法。随着基础模型（如LLM）的广泛应用，参数高效微调技术（如LoRA、RAG等）成为研究热点。这些技术通过减少需...

2025-01-22 talkingdev

近日，UniAct作为一种全新的Embodied Foundation Model框架正式亮相，其独特之处在于能够在Universal Action Space中高效运作。这一技术的推出标志着人工智能在动作空间建模领域迈出了重要一步。UniAct通过整合多模...

2024-12-23 talkingdev

Llama 3.3是一个最新的人工智能自编码器模型，拥有70亿参数规模。此次更新不仅提升了模型的容量和性能，还开放了API接口，使得开发者和研究人员能够更方便地接入并利用这一强大的模型资源。稀疏自编码器是一种高效的...

2024-06-27 talkingdev

在预训练中，如何积极选择下一批最好的样本是一个挑战性和开放性的问题。DeepMind的这项工作探索了如何只花费10%的浮点运算和硬挖掘负样本，仍然能匹配各种任务的最新技术。在这个过程中，他们采用了一种名为“联合样...

2024-06-06 talkingdev

GenS是一款端到端的通用神经表面重建模型，能够在没有3D监督的情况下，从多视图图像中出色地重建表面。与传统的表面重建方法相比，GenS在处理复杂的几何形状和纹理细节方面表现尤为突出。这一模型不仅提高了重建的精...

2024-06-03 talkingdev

muP 是一种被所有前沿模型实验室广泛使用的强大工具，用于将小模型上调优的超参数转移到更大、更昂贵的训练任务中。本文探讨了如何将这种技术应用于稀疏模型，从而显著提升训练性能，同时降低计算成本。通过muP，研...

2024-05-31 talkingdev

Yuan 2.0-M32是一款具备40亿参数的专家混合模型，其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19，但其性能却接近后者。该模型在2万亿个token上进行了训练，展现出了令人惊讶的强大性...

2024-05-28 talkingdev

近日，计算机科学家们推出了一款名为Llama 3-V的新型人工智能模型，其与GPT4-V性能相当，但模型大小只有GPT4-V的1/100。与GPT4-V的高昂价格相比，Llama 3-V仅需500美元即可获得。这款新型模型可以应用于自然语言处理...