大型语言模型的相关内容 - 漫话开发者

2024-02-29 talkingdev

论文：量化语言模型提高生成效率

IR-QLoRA是一种新方法，它可以提高量化大型语言模型的准确性，使它们更适合在资源有限的设备上使用。量化是一种通过降低浮点精度来减少计算资源需求的技术。虽然这种方法可以大大减少模型的计算量和存储空间，但它也...

2024-02-29 talkingdev

最近，研究人员开发了一种名为ShieldLM的安全检测器，可帮助大型语言模型遵守人类安全标准，并提供自定义检测和解释决策的功能。该工具可检测模型是否存在安全问题，例如对不同种族、性别或群体的人有偏见，或者可能...

2024-02-29 talkingdev

FuseChat推出了一种创新的方式，将多个大型语言模型的优势融合成一个更强大的模型，而不需要进行高成本的从头训练。

2024-02-29 talkingdev

据悉，字节跳动开发了一种名为 MegaScale 的系统，可用于训练大规模并行的大型语言模型。该系统成功地在 12,288 个 GPU 上训练了一个 175B 的语言模型，达到了 55.2% 的模型 FLOPs 利用率，相当惊人。此外，字节跳动...

2024-02-26 talkingdev

最近在《自然》杂志上介绍了一种名为FunSearch的方法，它使用大型语言模型在数学和计算机科学中进行新的发现。该方法将创造性的LLM与评估器配对，以产生可验证的解决方案，并在难以解决的cap set 和bin-packing问题...

2024-02-26 talkingdev

GradSafe是一种新的方法，用于检测大型语言模型中的不安全提示，无需进行大量的训练。它通过分析特定参数的梯度，比当前方法更有效地识别不安全的提示。

2024-02-22 talkingdev

知名研究员Nicholas Carlini发布了他用于评估大型语言模型性能的基准。有趣的是，它让GPT-4的表现在大多数其他基准之上。据了解，这个基准是基于多个指标和任务，包括自然语言推理和问答等。

2024-02-22 talkingdev

谷歌推出了一系列新的AI语言模型Gemma，这些模型是基于类似Gemini的技术构建的免费开源模型。Gemma模型可在桌面或笔记本电脑上本地运行，有两个模型，一个有20亿个参数，另一个有70亿个参数。每个模型都有经过预训练...