漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-09-06 talkingdev

Hugging Face推出新服务:一键训练模型,无需处理复杂内部过程

近日,人工智能科技公司Hugging Face发布了一项新的服务,该服务使得用户无需处理复杂的内部过程,仅需一键,即可对模型进行训练。这项创新型服务意味着,用户可以省去在深度学习项目中进行模型训练时,所需投入的大...

Read More
2023-09-05 talkingdev

Tiny Llama开源:1.1B参数模型训练

小型羊驼(Tiny Llama)项目旨在为3T代币训练出一个参数为11亿的羊驼2(Llama2)模型。根据扩展规律,这对于计算优化来说无疑是严重的过度训练,但它对于部署优化带来了显著的收益。此次的模型训练打破了传统的优化...

Read More
2023-09-04 talkingdev

modular-diffusion:一种使用PyTorch设计和训练自定义扩散模型的简单API

模块化扩散是一种易于使用的模块化API,可用于设计和训练自定义扩散模型。这款API基于PyTorch构建,为用户提供了一种灵活的方式,可根据需要进行定制和优化,从而实现在各种需求场景下的模型训练。由于其模块化的设...

Read More
2023-08-29 talkingdev

Prompt2Model:一种自然语言任务描述的小型专用模型训练系统

Prompt2Model是一种新颖的系统,它通过自然语言任务描述来训练一个小型的专用模型,非常适合于部署。这种系统的出现,使得模型训练过程更加人性化,用户只需要用自然语言描述任务,系统就可以根据描述内容进行训练。...

Read More
2023-08-28 talkingdev

微软开源DeepSpeed训练长文本模型

DeepSpeed是微软推出的一个库,可以用来扩大语言模型的预训练。虽然使用起来有些复杂,但它提供了强大的抽象功能。微软最近添加了序列并行性,可以训练具有更长上下文长度的模型。这并不是一个新的突破,而是对开源...

Read More
2023-08-21 talkingdev

开源txtai工具:集成语义搜索、LLM编排和工作流

GitHub近期发布了一款名为txtai的全新工具,这是一款集成语义搜索、LLM编排和语言模型工作流的全能型嵌入式数据库。这款工具能够将多种功能与应用集成在一起,为开发者提供了一个全新的、一体化的解决方案。通过txta...

Read More
2023-08-17 talkingdev

深度解析:transformer模型训练背后的数学原理

本文将深入探讨热门的《transformer数学101》文章,以及基于transformer架构的高性能分布式训练。变形金刚模型已经在深度学习领域广泛应用,其强大的处理能力和优异的性能表现赢得了业界的一致好评。然而,对于这种...

Read More
2023-08-14 talkingdev

机器学习模型是记忆还是泛化?揭秘模型训练动态

本文探讨了一个微型模型的训练动态,并反向工程了它找到的解决方案。这为我们揭示了一个令人兴奋的新兴领域——机械可解释性。机器学习模型在工作时,是通过记忆数据还是通过泛化理解进行推理?这是一个长期存在且至关...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page