漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2023-11-16 talkingdev

Serverless无服务器数据系统的架构

云数据服务的未来是大规模和多租户的。本文介绍了现实世界中无服务器多租户(MT)数据架构,以了解不同类型的系统如何实现无服务器MT。虽然一些模式立即跳出来,但是调查的系统之间有惊人的多样性。本文涵盖了什么是...

Read More
2023-11-14 talkingdev

Nvidia推出AI计算猛兽H200 GPU,或加速ChatGPT

Nvidia推出了HGX H200 Tensor Core GPU,这是去年发布的H100 GPU的后续产品。H200采用Hopper架构来加速AI应用。它可能会导致更强大的AI模型和现有模型更快的响应时间。计算能力的缺乏一直是AI进步的主要瓶颈。亚马逊...

Read More
2023-11-07 talkingdev

HelixNet:开源三合一模型显著提升生成性能

最近,一项名为HelixNet的新研究显示,如果微调Mistral基础架构的三个任务特定模型,一个用于生成,一个用于批判,最后一个用于再生,则整个系统的生成性能显着提高。该研究使用合成数据来调整这些模型。HelixNet的...

Read More
2023-11-03 talkingdev

Nous Research运用Yarn方法,将Mistral 7B模型扩大到128k上下文

Nous Research运用他们的Yarn方法来优化Mistral 7B的性能,使其可以处理长达128k的上下文。该方法在短序列长度上表现良好,并可以显著提高处理长文档的性能。

Read More
2023-11-02 talkingdev

开源的LangChain模板仓库

这些模板是一组参考架构,适用于各种流行的LLM用例,是构建生产就绪的LLM应用程序最简单和最快速的方法。

Read More
2023-11-01 talkingdev

COMM开源,改进多模态LLMs性能

近期,研究人员深入探究了多模态大型语言模型(MLLMs)中使用的视觉编码器,并发现CLIP和DINO模型中的某些特征特别适合于详细的视觉任务。他们随后引入了COMM,一种结合了两种模型优点的策略。COMM能够显著提高LLMs...

Read More
2023-10-31 talkingdev

微软研究小组开放GPT-3.5-turbo,参数达到20B

微软研究小组在一篇论文中提到,GPT-3.5-turbo(ChatGPT背后的模型)是一个具有20B参数的模型,该小组研究扩散模型用于代码。据称原始模型的参数为175B,因此可能进行了重新训练或蒸馏。

Read More
2023-10-31 talkingdev

探索现代LLM应用程序架构

本篇博客旨在为读者提供构建第一个LLM应用程序所需的一切知识。它还介绍了一些读者今天可以开始探索的问题空间。本博客涵盖了LLM应用程序的新兴架构以及LLM的现实影响。提供了进一步阅读的资源。

Read More
  1. Prev Page
  2. 31
  3. 32
  4. 33
  5. Next Page