漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-07-10 talkingdev

论文:将系统2精炼为系统1:COT新思维链模型提升计算和推理效率

系统2模型是一种使用类似于思维链的方法,通过更多的测试时间计算来提升推理的模型。最新的研究发现,我们可以将这种行为提炼为一个系统1模型,使其运行速度更快,而准确性相似。系统1模型的主要优势在于其高效的运...

Read More
2024-07-02 talkingdev

改进推理效率的Block Transformer

这个代码库引入了一种新型的Transformer变压器,其KV缓存大小大幅度减少。虽然尚未在大规模上得到证实,但理论上,它可以匹配常规变压器的性能。这意味着,我们现在有了一种新的工具,可以在处理复杂的计算问题时,...

Read More
2024-06-21 talkingdev

Character AI推理效率优化:实现每秒2万次查询

Character AI是一家知名的人工智能公司,其每秒可处理20,000次查询,这一数据相当于Google搜索量的20%。为了能够高效运行,Character AI团队进行了一系列的创新性改进。这些改进不仅提高了系统的运行效率,还提升了...

Read More
2024-05-09 talkingdev

QoQ高效量化算法助力LLM推理加速

QoQ,一种新型量化算法,通过使用4位权重、8位激活和4位KV缓存,加速了大型语言模型推理。量化是一种广泛应用于深度学习中的技术,它能够减少模型的存储需求和计算复杂性。在这种情况下,QoQ算法采用了较低精度的数...

Read More
  1. Prev Page
  2. 1
  3. 2
  4. 3