漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-14 talkingdev

ExLlamaV2:在消费级GPU上运行本地LLMs的推理库

ExLlamaV2是一个在GitHub上开源的项目,它是为现代消费级图像处理单元(GPU)上运行本地语言模型(LLMs)而设计的推理库。这款推理库的出现,可以帮助用户在个人电脑上使用现代GPU进行深度学习模型的推理计算,而无...

Read More
2023-06-26 talkingdev

ExLlama:HF Transformers实现的内存更高效的量化权重重写

ExLlama是HF Transformers实现的一种内存更高效的量化权重重写。这个重写的目的是为了在使用量化权重时能够更好地节省内存。Llama是HF Transformers的一个开源项目,但在使用量化权重时存在内存占用较高的问题。ExLl...

Read More