模型参数的相关内容 - 漫话开发者

2024-02-01 talkingdev

论文：SliceGPT高效简化大型语言模型的新方法

SliceGPT引入了一种新的后训练稀疏化方案，以减少大型语言模型的资源需求。通过将权重矩阵替换为较小的矩阵并减少嵌入维度，它可以在主要模型（如LLAMA2-70B和OPT 66B）中删除高达25%的模型参数，同时保留高达99%的...

2024-01-31 talkingdev

近日，一款名为SliceGPT的新一代模型压缩工具问世。据悉，该工具可以适用于从Phi-2等小型模型到大型模型的多种规模，并可对模型的权重矩阵进行剪枝处理，最大程度保持模型质量的同时，实现模型参数的大幅度减少，以...

2024-01-22 talkingdev

本项目通过引入两个新版本：Smooth MPRT和Efficient MPRT，改进了模型参数随机化测试，这是eXplainable AI（XAI）中的关键工具。

2024-01-15 talkingdev

近日，一种33B参数的网络安全语言模型发布，该模型同时具备进攻性和防御性。这是一种通用编码模型，可以协助网络安全任务。这意味着，您可以使用它来保护您的网络，并学习如何防范不同的黑客攻击和漏洞。该模型的发...

2023-11-21 talkingdev

本文探讨了不同的数据优化方案，以实现在最小的计算成本下，模型之间的知识转移。此技术能够帮助开发人员在不同场景下利用已有的模型知识，从而节省时间和成本。研究人员发现，通过将数据集合并和调整模型参数，可以...

2023-10-31 talkingdev

微软研究小组在一篇论文中提到，GPT-3.5-turbo（ChatGPT背后的模型）是一个具有20B参数的模型，该小组研究扩散模型用于代码。据称原始模型的参数为175B，因此可能进行了重新训练或蒸馏。

2023-09-15 talkingdev

混合专家模型（MoEs）是一种增加模型容量的有效方法，同时不会增加每个令牌的运行时间。然而，让它们快速运行并进行微调仍然具有一定的难度。最新研究发现，如果你能有效地修改密集模型参数，以配合MoEs的微调，就能...

2023-08-07 talkingdev

目前使用的语言模型有两大类：密集型和稀疏型。密集型模型就像传统的2017年的变压器模型，每个令牌都使用每个模型参数。稀疏型模型在此后不久就被引入，它使用一种路由机制（通常是学习到的），这意味着每个令牌只使...