漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-10 talkingdev

一次缓存,永久有效:YOCO架构再塑GPU内存需求

YOCO架构是一种具有全局注意力能力的解码器-解码器模型,能有效地降低GPU内存需求。它包含一个自解码器和一个交叉解码器,使得关键-值对的缓存和复用更加高效。与传统的Transformer相比,YOCO在推理内存、延迟和吞吐...

Read More
2024-05-02 talkingdev

Lightplane-开源高效内存技术助力3D渲染

Lightplane Renderer和Splatter组件是一种全新的方法,它极大地降低了2D-3D映射中的内存使用。Lightplane Renderer技巧性地从神经3D字段生成图像,而Lightplane Splatter则高效地将这些图像投射到3D Hash结构中。通...

Read More
2024-04-08 talkingdev

Qwen团队发布32B参数模型,实现强大性能并适应中等内存系统

Qwen团队最新力作——一个具备32B参数的AI模型,现已成功训练并对外发布。该模型在各类任务中展现出卓越的性能表现,同时其设计考虑到了内存的局限性,能够适配更为普遍的中等内存硬件系统。这意味着,即便是在资源有...

Read More
2024-04-05 talkingdev

SableDb:一款旨在降低内存成本、提升容量的键值对NoSQL数据库

SableDb是一款新兴的键值对NoSQL数据库,其设计目标是相较于Redis进一步降低内存成本并提升数据存储容量。该数据库采用了高效的数据结构和算法,优化了内存使用效率,使得在处理大量数据时仍能保持较低的资源消耗。S...

Read More
2024-03-28 talkingdev

二进制搜索向量技术助力RAG管道性能提升

在RAG(检索-生成)管道中,对嵌入向量进行搜索是至关重要的一环。通过将fp32数字替换为单个0或1,并使用KNN聚类器和重排序器,可以在缩小内存需求30倍的同时,保持性能不受影响。这一技术突破为处理大规模数据集提...

Read More
2024-02-21 talkingdev

KV Quant - 缩放至1000万个令牌

KV缓存的量化是Transformer架构的一个技术细节,它使其在推理时使用更少的内存。量化是在最小损失质量的情况下缩小浮点精度。

Read More
2023-11-01 talkingdev

苹果推出Scary Fast活动:四大重磅发布

苹果在Scary Fast活动上揭示了最新版自家芯片的全新Mac。苹果的M3、M3 Pro和M3 Max芯片是使用3纳米工艺制造的首批PC芯片。它们配备了更新的GPU,支持光线追踪、网格着色和动态缓存等内存优化功能。新的Mac产品包括24...

Read More