漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-06-01 talkingdev

一年来与LLMs一起构建的经验教训

自去年推出以来,语言模型(LLMs)已成为人工智能领域的热点。一年来,我们使用LLMs构建了许多项目,并从中获得了许多宝贵的经验教训。首先,LLMs需要大量的数据来进行训练,只有这样才能产生准确的结果。其次,LLMs...

Read More
2024-05-31 talkingdev

论文:Yuan 2.0-M32,具备注意力路由的MOE专家混合模型

Yuan 2.0-M32是一款具备40亿参数的专家混合模型,其中任意时刻仅有3.7亿参数处于激活状态。尽管其计算需求仅为Llama 3 70B的1/19,但其性能却接近后者。该模型在2万亿个token上进行了训练,展现出了令人惊讶的强大性...

Read More
2024-05-31 talkingdev

1bit-LLMs:AI能效问题的创新解决方案

随着大型语言模型性能的提升,其对能源和计算能力的渴求也随之增加。为降低成本,提高处理速度,同时减少对环境的影响,模型需要实现更小型化。研究人员目前采用一种名为量化的技术,通过减少模型参数的精度来压缩网...

Read More
2024-05-30 talkingdev

如何构建大型语言模型产品:一年的实践和深刻洞察

随着人工智能产品的门槛降低,从演示到实现有效产品的转变依然充满挑战。这一系列文章将深入探讨过去一年中基于机器学习系统之上开发实际应用的人们,从大型语言模型(LLMs)产品开发中学到的关键教训和方法论。内容...

Read More
2024-05-28 talkingdev

如何看待通用人工智能(AGI)

尽管一些专家认为通用人工智能(AGI)可能在不久的将来实现,但由于缺乏对一般智能的连贯理论模型以及对大型语言模型(LLM)为何或如何如此高效的理解,整体共识仍然不确定。讨论强调了围绕AGI的巨大未知数,类似于...

Read More
2024-05-28 talkingdev

全新视觉语言模型Meteor开源:多维度推理提升理解能力

近日,一个名为Meteor的新型高效大规模语言和视觉模型项目在GitHub上发布。Meteor模型通过引入多维度推理机制,大幅提升了理解和回答复杂问题的能力。该模型的设计旨在解决现有视觉语言模型在处理复杂场景时的局限性...

Read More
2024-05-28 talkingdev

Anthropic发布新方法解读大型语言模型Claude Sonnet的内部运作

Anthropic的研究人员近日公布了一种解读其大型语言模型Claude Sonnet内部运作的新方法。他们通过绘制出数百万个与各种概念相对应的特征,成功解析了这个模型的内在机制。这一可解释性研究不仅有助于我们更好地理解AI...

Read More
2024-05-27 talkingdev

论文:语言模型可重复评估方法的新思路

评估语言模型一直以来都是一个复杂的任务,尤其是在大多数评估细节都只存在于大型公司内部的情况下。这篇论文展示了一套可重复且强大的评估标准,为研究人员提供了一个实用的框架。论文中包括了对困惑度评估的详细讨...

Read More
  1. Prev Page
  2. 45
  3. 46
  4. 47
  5. Next Page