推理速度的相关内容 - 漫话开发者

2023-10-18 talkingdev

HuggingFace diffusers开源轻量快速推理引擎

近日，HuggingFace diffusers轻量快速推理引擎在GitHub上线。该引擎通过许多小改进，实现了大幅提升推理速度的目标，声称每秒可达60步，比原来的23步快了许多。该引擎在自然语言处理任务中表现优异，受到了许多开发...

2023-06-12 talkingdev

近日，研究人员提出了一种名为Sparse-Quantized Representation（SpQR）的新技术，可以实现对大型语言模型（LLMs）的几乎无损压缩，克服了量化带来的精度损失。这项技术使得强大的LLMs可以在像笔记本电脑和手机这样...

2023-06-05 talkingdev

近日，谷歌通过基因搜索算法和海量TPU的使用，开发出了一种新的模型——Brainformer，其收敛速度比传统的Transformer模型快5倍，推理速度快2倍。这种模型使用了MoE模块和一些其他巧妙的技巧，充分发挥了TPU的强大性能...

2023-04-19 talkingdev

以下是本次新技术发布的三个核心要点： - 实时物体检测一直是计算代价高昂的问题，而新的Real-Time Detection Transformer (RT-DETR)技术通过采用高效的混合编码器和IoU感知查询选择等优化策略，成功解决了这个问题...

2023-04-16 talkingdev

新闻内容： - Web LLM是一种基于WebGPU技术的大型语言模型推理方法 - 该技术可提高大型语言模型的推理速度和效率 - Web LLM有望应用于自然语言处理、机器翻译等领域，为人工智能技术的应用提供更为便利的解决方案