架构的相关内容 - 漫话开发者

2023-09-18 talkingdev

IBM正式挑战语言模型领域，推出开源MoE模型

IBM近日发布了一系列混合专家模型（Mixture-of-Experts，MoE），并公开了它们的架构和部分代码。MoE模型是一种稀疏模型，意味着在不牺牲准确性的情况下，可以节省计算资源。然而，训练这种模型却颇具挑战性。这次IBM...

2023-09-15 talkingdev

最近发布的GitHub仓库为开发者提供了一份详尽的指南，指导如何构建基于RAG（Retrieval Augmented Generation）的LLM（Language Learning Machine）应用程序。该指南详细介绍了从设计到实施的全过程，包括选择合适的...

2023-09-13 talkingdev

并非每个服务都需要是“微”的。有些初创公司只需要“服务”就能很好地运作。从单体架构开始没问题，只要从单体架构中分支出来的服务能够处理清晰可识别和可单独扩展的负载。简单的方法通常是更合适的选择。

2023-09-11 talkingdev

NGINX Unit是一个通用的Web应用程序服务器，它可以为静态媒体资产提供服务，并在七种语言中运行应用程序代码。它旨在成为任何Web架构的通用构建模块。NGINX Unit的本地RESTful JSON API允许进行零中断的动态更新和灵...

2023-09-05 talkingdev

研究人员创造了一个名为SpeechTokenizer的工具，该工具通过使用一种混合不同语音方面的特殊架构，帮助模型以更有效的方式理解口语。通过这种方式，它尝试解决语音模型在理解和处理口语时面临的挑战。它的创新之处在...

2023-08-21 talkingdev

贝叶斯流网络是一种新颖的架构和训练算法。这是一份简洁、非官方的论文复制品。目标是构建一个可以扩展到GPT-2大小模型的代码库。贝叶斯流网络的出现，为深度学习模型的训练带来了新的可能性，其独特的结构和训练方...

2023-08-17 talkingdev

本文将深入探讨热门的《transformer数学101》文章，以及基于transformer架构的高性能分布式训练。变形金刚模型已经在深度学习领域广泛应用，其强大的处理能力和优异的性能表现赢得了业界的一致好评。然而，对于这种...

2023-08-17 talkingdev

出色的研究员Chip Huyen提出了LLM（语言模型）研究中的十大开放性挑战。首先，幻觉和上下文长度问题在当前讨论中频繁出现。然而，最有趣的可能是多模态、架构改进，以及对GPU的替代方案。目前，有许多聪明的研究人员...