语言模型的相关内容 - 漫话开发者

2024-04-08 talkingdev

MLPerf 基准测试新增大型生成型AI模型，Nvidia 系统性能超群

MLPerf 近日更新了其推理基准测试，新增了如 Llama 2 70B 和 Stable Diffusion XL 等大型语言模型，这一变化体现了整个行业对于大型生成型人工智能的转移。在最新测试中，Nvidia 的系统，尤其是搭载了 H200 处理器的...

2024-04-08 talkingdev

近期在GitHub上发布的ReFT（Representation Fine-Tuning）项目，为微调语言模型带来了一种新的参数高效方法。与传统的PeFT相比，ReFT在保持强大性能的同时，大大降低了成本。该方法通过精细化调整模型参数，使得在进...

2024-04-08 talkingdev

Meta的研究团队近日推出了一款新型的优化器，并已在X平台上公开代码及其多种集成方式。这款优化器的独特之处在于它不依赖于学习率（LR）调度，训练过程中无需预先设定总步数。经过实证，该优化器在包括语言模型在内...

2024-04-08 talkingdev

研究人员近日推出了ReaLMistake基准测试工具，该工具专注于系统性地检测大型语言模型（LLM）响应中的错误。随着人工智能技术的发展，大型预训练语言模型在多种应用场景中展现出了卓越的性能。然而，这些模型在生成文...

2024-04-08 talkingdev

Cohere公司近日推出了Command R+，这是一款专为企业级应用场景设计的高性能、可扩展的大型语言模型（LLM）。Command R+具备先进的检索增强生成功能，并支持引用，同时覆盖10种关键语言的多语言处理能力，以及工具使...

2024-04-08 talkingdev

Opera公司旗下的Opera One开发者浏览器近日宣布，现已支持本地运行150种不同的大型语言模型，这些模型来自50个不同的大型语言模型家族。用户无需连接互联网，即可在本地运行这些模型，但需先下载相应的模型文件。此...

2024-04-05 talkingdev

Linear Attention Sequence Parallel（LASP）是一套新型策略，专为高效处理语言模型中的长序列而设计。该技术通过创新性地运用线性注意力机制，超越了传统方法，实现了对长序列数据的优化管理。LASP的核心优势在于其...

2024-04-04 talkingdev

生成式人工智能（Generative AI）的未来前景备受争议。目前，该技术面临着盈利能力不足、安全隐患以及语言模型固有的幻觉问题等多重挑战。除非在2024年底前发布一款像GPT-5这样具有突破性的模型，并解决关键问题同时...