漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-06-19 talkingdev

百万上下文窗口背后的秘密武器

本文讨论了几种加速大型语言模型(LLM)训练和推理的技术,以使用高达100K个输入令牌的大上下文窗口。这些技术包括:ALiBi位置嵌入,稀疏注意力,闪电注意力,多查询注意力,条件计算以及使用80GB的A100 GPU。

Read More
2023-06-12 talkingdev

新加坡推出多模态文本/视觉模型

新闻概要: - 新加坡研究人员收集了一个新的视觉指导调整数据集。 - 他们训练了一个多模态文本/视觉模型,并在过程中进行了一些算法调整。 - 该模型的演示令人印象深刻,特别是在苹果发布增强现实技术后,展示了人...

Read More
2023-06-08 talkingdev

CodeTF库发布,助力代码智能化

## 新闻内容: GitHub开源社区发布了一款名为CodeTF的Python Transformer库,致力于提高代码智能化的水平,为使用者提供了一个训练与推理的平台,可以轻松实现代码智能化任务,如代码摘要、翻译、生成等。 CodeTF...

Read More
2023-05-30 talkingdev

新款100TB GPU系统发布!

近日,全新的DGX系统面世了!节点之间的NVLink连接创造了一个由256个Grace CPU(每个CPU拥有480GB的LPDDR5内存)和256个Hopper GPU(每个GPU拥有96GB的HBM3内存)组成的系统。每个GPU可以以900Gbps的速度直接访问任...

Read More
2023-05-03 talkingdev

火车稳定扩散,只需要5万美元

Mosaic ML正在开发一个工具包,使模型训练变得非常容易。他们在公共云上复制了稳定扩散训练,只需47,000美元。该代码已经开源。他们的平台可以自动从硬件故障中恢复。有趣的是,这个模型得到了用户高度评价,可能是...

Read More
2023-04-27 talkingdev

ChatGPT发布新功能,提供更多数据管理方式

以下是本新闻的核心内容: - ChatGPT现在可以关闭聊天历史记录,让用户自由选择哪些对话可以用于模型训练。 - OpenAI正在开发新的ChatGPT Business订阅服务,为需要更多数据控制权的专业人士和企业提供管理终端用户...

Read More
2023-04-21 talkingdev

科技新闻:RedPajama发布首款模型

- Mosaic使用440个GPU训练了一个10亿参数的模型,训练了2000亿个令牌 - 这个模型展示了Mosaic强大的模型训练技术,称为RedPajama - 该模型使用了AliBi技术,理论上可以扩展到超过2000个上下文 以上是关于Mosaic发布...

Read More
2023-04-20 talkingdev

技术新闻:Transformer数学问题

本文介绍了Transformer模型训练中需要用到的数学知识,其中包括以下三个核心点: - 计算需要多少个GPU进行训练; - 计算模型的宽度应该是多少; - 不管模型大小,都需要至少训练200B个标记。 除此之外,还有其他有...

Read More
  1. Prev Page
  2. 12
  3. 13
  4. 14
  5. Next Page