性能的相关内容 - 漫话开发者

2024-05-10 talkingdev

CLLM一致性语言模型：开创新的预测范式

预测多个令牌的同时生成是当前被积极研究的一个有趣的范式。如果成功，这将大大提高许多大型语言模型的生成速度。本篇文章中的方法，模仿了图像合成中的一致性模型，试图在精调的LLMs上使用并行解码策略来加快生成速...

2024-05-10 talkingdev

YOCO架构是一种具有全局注意力能力的解码器-解码器模型，能有效地降低GPU内存需求。它包含一个自解码器和一个交叉解码器，使得关键-值对的缓存和复用更加高效。与传统的Transformer相比，YOCO在推理内存、延迟和吞吐...

2024-05-09 talkingdev

PostgreSQL是一款流行的开源关系型数据库，最近它发布了一个全新的消息队列系统，可以作为Amazon Simple Queue Service（SQS）的替代方案。这个新系统是基于PostgreSQL的表结构构建的，可以充分利用PostgreSQL性能和...

2024-05-09 talkingdev

QoQ，一种新型量化算法，通过使用4位权重、8位激活和4位KV缓存，加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术，它能够减少模型的存储需求和计算复杂性。在这种情况下，QoQ算法采用了较低精度的数...

2024-05-09 talkingdev

苹果公司宣布了下一代Apple Silicon芯片——M4，这也是该公司首款专为人工智能设计的芯片。新芯片采用3纳米架构，并将首次在2024年的iPad Pro中亮相。新芯片拥有10核CPU，速度比M2快50%，并配备了新的神经引擎，能够每...

2024-05-08 talkingdev

Consistency LLM是一种新的自然语言处理模型，可以将其转换为并行解码器，从而将推理时间缩短至3.5倍。LLM模型是一种具有良好性能的模型，但推理速度较慢。该研究团队将LLM转换为并行解码器，使用了一种名为一致性训...

2024-05-07 talkingdev

DeepSeek近期推出了一个具有超过2000亿参数的模型DeepSeek-V2，其中激活参数达到210亿。无论是在编码还是推理方面，该模型的表现都极为出色。虽然目前尚不清楚其性能是否超过了拥有700亿参数的Llama 3模型，但无疑，...

2024-05-07 talkingdev

Vibe-Eval是一个新推出的基准测试，专为测试多模态聊天模型而设计。它包含了269项视觉理解提示，其中包括100项特别具有挑战性的提示。这些视觉理解提示的设计，力求能够全面、深入地评估和测试多模态聊天模型的性能...