漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-05-02 talkingdev

深度解析:Gemma的Transformer架构详解

理解Transformer的工作原理常常需要多次尝试。本篇博客文章通过详细解读Gemma架构,帮助读者深入理解Transformer。文章内容明了,包含了代码和图解,无论是对于初学者还是专业人士来说,都能从中获取到有价值的信息...

Read More
2024-04-04 talkingdev

ASTRA模型-在足球比赛中可识别关键时刻

ASTRA是一款基于Transformer架构的模型,其在足球比赛中识别关键时刻的能力令人瞩目。该模型针对行动定位和数据不平衡等挑战提出了有效的解决方案。通过对比赛视频的深度学习分析,ASTRA能够精确识别出比赛中的重要...

Read More
2024-03-18 talkingdev

xAI公开发布Grok-1模型权重与架构

人工智能领域的领先企业xAI近日宣布,已将其拥有3140亿参数的Mixture-of-Experts模型——Grok-1的权重和架构公开。Grok-1采用JAX编写,并融入了现代Transformer架构,包括GeGLU、ROPE、三明治范数等先进技术。此次公开...

Read More
2024-02-21 talkingdev

KV Quant - 缩放至1000万个令牌

KV缓存的量化是Transformer架构的一个技术细节,它使其在推理时使用更少的内存。量化是在最小损失质量的情况下缩小浮点精度。

Read More
2024-01-29 talkingdev

论文:3D医学图像分割技术SegMamba

SegMamba是一种专为3D医学图像分割设计的模型,它提供了一种比Transformer架构更高效的替代方案。SegMamba采用全卷积神经网络架构,可以对3D医学图像进行有效的分割,尤其是在肿瘤分割方面表现出色。与传统的医学影...

Read More
2023-08-17 talkingdev

深度解析:transformer模型训练背后的数学原理

本文将深入探讨热门的《transformer数学101》文章,以及基于transformer架构的高性能分布式训练。变形金刚模型已经在深度学习领域广泛应用,其强大的处理能力和优异的性能表现赢得了业界的一致好评。然而,对于这种...

Read More