推理的相关内容 - 漫话开发者

2023-09-08 talkingdev

单一宽前馈层：转变你的编码解码器

在变压器网络中，前馈层占据了大部分的总权重。然而，如果你使用一个单一的大型前馈层，共享给编码器和解码器，你可以显著提高推理时间，同时性能的下降微乎其微。这是一种有效的优化手段，可以有效提升网络的运行效...

2023-09-08 talkingdev

原名为Adept的柿子科技公司，近期推出了其极其高效的8b参数模型——柿子-8B。同时，该公司也发布了推理代码。此次发布的模型和代码中包含了许多亮点，其中最引人注目的是具备70k未使用的嵌入功能，这为多模态扩展提供...

2023-08-31 talkingdev

微软发布了一种名为“思想算法”（AoT）的新型AI训练方法，旨在使大型语言模型如ChatGPT的推理能力更加高效和类人化。这种新颖的AI训练方法是微软在人工智能领域的一项重要突破，表明了微软在深化机器学习和人工智能技...

2023-08-30 talkingdev

GitHub近日发布了新工具DSPy，这是一套简洁的Python模块集，能够统一调动和微调语言模型(LMs)的技术，并通过推理和工具/检索增强来改进它们。DSPy的设计理念是使得这些复杂的技术可以通过简洁的代码实现，同时也使得...

2023-08-28 talkingdev

封闭源代码模型如Claude或GPT-4之所以令人印象深刻，是因为它们在推理能力和通用语言能力方面表现出色。许多开放的替代方案专注于极其狭窄的技能领域，而忽视了其他方面。OpenLemur项目的目标是在许多不同的任务中平...

2023-08-25 talkingdev

本文探讨了为何现有的大型语言模型（LLMs）不太可能导致人工通用智能（AGI）的发展，以及为何物理学本身将阻止我们从现在的状态突然跃升到AGI。当前的LLMs，虽然在某些方面已经取得了显著的进步，但是在理解和推理的...

2023-08-25 talkingdev

在一个大规模的合作努力下，我们构建了一个基准，用于度量语言模型在法律框架中的推理能力。这项工作的关键在于，我们需要警惕已经训练过的模型中的污染。语言模型在训练过程中可能会被各种各样的数据源影响，这些数...

2023-08-24 talkingdev

Roboflow推理是一种在最先进的计算机视觉模型上运行推理的工具。它可以在各种设备和环境上部署，无需机器学习的先验知识。Roboflow推理支持目标检测、分类、实例分割模型以及基础模型。有一个展示Roboflow推理在足球...