架构的相关内容 - 漫话开发者

2024-01-10 talkingdev

DeepSeek LLM技术报告发布：接近GPT-3.5水平

去年最好的编码模型之一是DeepSeek LLM。它在许多基准测试中接近GPT-3.5（即使它可能是3倍大小）。有关模型训练，令牌计数，模型架构等的信息已在技术报告中发布。DeepSeek LLM是一种基于语言模型的编码器，它使用自...

2024-01-10 talkingdev

Spin是一款Bash实用工具，它可以提高Docker的使用体验。它可以在任何机器上复制任何环境，并从单个配置文件集中管理基础架构。Spin通过官方支持的功能和最佳实践显着改善了使用Docker时的开发人员体验。

2024-01-09 talkingdev

本文分享了关于AI现状的思考，以及对该技术发展方向的一些预测。文章主要关注AI模型的产品、市场和人才现状，而并未涉及AI架构和基础设施的技术细节。今年，开源模型将赶上专有模型，并帮助推动边缘设备的推理。

2023-12-26 talkingdev

本文提供了一份长而广泛的调查，介绍了让大型语言模型运行更快的不同方法。列表不是完全穷尽的，但可以用作学习有趣主题的跳板。在可能的情况下，它包括相关论文和博客文章的链接。本文介绍了不同的方法来优化大型语...

2023-12-22 talkingdev

Google的Gemini语言模型项目已经发表了一篇850多位作者的论文。该论文详细阐述了Gemini语言模型的研究成果，但缺乏关键的架构和数据集细节。该论文还提供了有关归因和评估的详细信息。

2023-12-20 talkingdev

Mamba的创建者（以及许多其他模型）发布了一篇很专业的博客文章，概述了基本的序列混合架构，相对于标准Transformer，可以获得相当大的速度提升。该团队的新模型使用了这种混合方法，并且获得了非常好的性能。这种新...

2023-12-12 talkingdev

近来，Transformer模型在AI领域占据统治地位。它们是强大的序列学习器，但也存在一些缺点。这项新工作基于状态空间模型，展示了新的架构可以带来巨大的好处，如增加上下文长度。

2023-12-11 talkingdev

谷歌宣布推出Cloud TPU v5p，这是目前谷歌最强大、可扩展和灵活的AI加速器。TPU用于训练和提供AI产品。谷歌还宣布推出AI超级计算机，这是一种超级计算机架构，采用性能优化硬件、开放软件、领先的ML框架和灵活的消费...