漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-28 talkingdev

Meta提出了一种三亿五千万参数的语言模型,强大推理能力接近Llama 7B

近日,Meta提出了一种三亿五千万参数的语言模型,其强大的推理能力甚至接近Llama 7B在API函数调用任务中的正确性。该模型尚未发布,但固定参数模型的创新值得探索。

Read More
2024-02-27 talkingdev

OpenCodeInterpreter模型接近GPT-4的代码性能

OpenCodeInterpreter模型基于CodeLlama和DeepSeek Coder,通过训练合成多轮数据集和使用人类反馈,能够在编程HumanEval基准测试中获得85%以上的准确率。

Read More
2024-02-26 talkingdev

谷歌开源轻量级CPP Gemma推理引擎

谷歌工程师和科学家开发了一个新的代码库,名为CPP Gemma推理引擎。与llama.cpp类似,该代码库允许在SIMD CPU架构上进行推理。该工具的目的是鼓励实验和使用昨天发布的Gemma模型。

Read More
2024-02-23 talkingdev

谷歌开源Gemma对抗Llama,底模基于Gemini

Google已经发布了其Gemma 2B和7B参数模型的权重,可通过HuggingFace获得。这些模型是仅解码器的Transformer,训练了2T和6T个令牌。它们在各种基准测试中都比Llama 2表现出色,并提供基础和指令调整版本。

Read More
2024-02-22 talkingdev

谷歌推出Gemma—免费的开源AI聊天机器人家族

谷歌推出了一系列新的AI语言模型Gemma,这些模型是基于类似Gemini的技术构建的免费开源模型。Gemma模型可在桌面或笔记本电脑上本地运行,有两个模型,一个有20亿个参数,另一个有70亿个参数。每个模型都有经过预训练...

Read More
2024-02-21 talkingdev

OpenRLHF开源,提供基于Ray的RLHF实现

近日,GitHub上有一个新的仓库OpenRLHF发布了。这是一个基于Ray的RLHF实现,专为Llama样式模型设计。该仓库集成了多种PPO稳定技巧,以提高性能。Ray是一款新型的分布式计算框架,它具有高效、易用等特点,支持快速构...

Read More
2024-02-20 talkingdev

阿里Qwen发布1.8B和72B LLMs

Qwen团队发布了两个新的语言模型,分别是1.8B和72B的LLMs,与Llama 2相似,这些模型训练了3T个标记,并且在许多任务上表现出色。除了发布聊天版本和量化版本外,这些模型还在推理、数学和代码方面表现出色。

Read More
2024-02-14 talkingdev

Lag-Llama:基于Transformer的概率时间序列预测基础模型

Lag-Llama是一种基于Transformer的模型,可在零样本和少样本泛化方面表现出色,并在广泛的时间序列数据上进行了预训练。通过对少量数据进行微调,它超越了现有深度学习方法的最新性能,标志着时间序列分析基础模型的...

Read More
  1. Prev Page
  2. 8
  3. 9
  4. 10
  5. Next Page