漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-02-26 talkingdev

Phind 70B Code Model表现卓越,人类评估得分83%

Phind的70B代码模型在人类评估中获得83%的高分,与GPT-4表现相当。关键是它拥有显著较少的慵懒回应和拒绝。34B模型即将发布,更大的70B模型也将在未来发布。

Read More
2024-02-23 talkingdev

GTBench-评估游戏中的LLMs

GTBench是一个用于测试类似GPT-4这样的LLMs在各种游戏场景中发现其在策略推理方面的优势和劣势的平台。虽然这些模型在基于概率的游戏中表现出很大的潜力,但在确定性游戏中表现不佳,并且在设计和训练上表现也有所不...

Read More
2024-02-23 talkingdev

Predibase发布25个LoRA,超越GPT-4的Mistral模型

Predibase发布了25个狭窄的任务特定LoRA,每个在特定任务上都能超越GPT-4。这些任务特定的LoRA是建立在Mistral 7B模型之上的。这再次证明了本地模型在精确任务上表现异常出色的能力。

Read More
2024-02-23 talkingdev

结合无监督训练和监督微调的效果存在挑战

近日,一项新的研究挑战了结合监督微调和强化学习的训练方法的有效性。研究表明,在初始训练中使用更先进的模型(如GPT-4)可以优于更复杂的两步方法。这一研究的开源代码已经发布到GitHub上,供科研人员使用和参考...

Read More
2024-02-22 talkingdev

新LLM基准发布:GPT-4表现超前于其他基准

知名研究员Nicholas Carlini发布了他用于评估大型语言模型性能的基准。有趣的是,它让GPT-4的表现在大多数其他基准之上。据了解,这个基准是基于多个指标和任务,包括自然语言推理和问答等。

Read More
2024-02-22 talkingdev

OpenAI宣布GPT-4的知识库截止于2023年12月

根据OpenAI平台上的新文档,GPT-4模型的训练数据已更新,包括了截止于2023年12月的信息。GPT-4是一种自然语言处理模型,它可以生成人类能够理解的语言。这一更新表明,GPT-4将有更多的信息可用于训练,以更好地理解...

Read More
2024-02-22 talkingdev

Gemini Pro 1.5推出,视频处理成为其杀手级应用

Gemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小,远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节,但它能够处理并提取短视...

Read More
2024-02-20 talkingdev

程序员将复杂代码库整合为单个120K令牌提示,GPT-4和Gemini 1.5回答7个问题的结果

最近,这位Reddit用户将两个复杂的代码库放入了GPT-4-Turbo-128K和Gemini 1.5中,并向它们提出了问题。代码库实现了一个并行的inet运行时,因此涉及一些难以处理的编译器内容。在理解代码库的任务中,Gemini 1.5完全...

Read More
  1. Prev Page
  2. 11
  3. 12
  4. 13
  5. Next Page