GPT-4的相关内容 - 漫话开发者

2024-02-26 talkingdev

Phind 70B Code Model表现卓越，人类评估得分83%

Phind的70B代码模型在人类评估中获得83%的高分，与GPT-4表现相当。关键是它拥有显著较少的慵懒回应和拒绝。34B模型即将发布，更大的70B模型也将在未来发布。

2024-02-23 talkingdev

GTBench是一个用于测试类似GPT-4这样的LLMs在各种游戏场景中发现其在策略推理方面的优势和劣势的平台。虽然这些模型在基于概率的游戏中表现出很大的潜力，但在确定性游戏中表现不佳，并且在设计和训练上表现也有所不...

2024-02-23 talkingdev

Predibase发布了25个狭窄的任务特定LoRA，每个在特定任务上都能超越GPT-4。这些任务特定的LoRA是建立在Mistral 7B模型之上的。这再次证明了本地模型在精确任务上表现异常出色的能力。

2024-02-23 talkingdev

近日，一项新的研究挑战了结合监督微调和强化学习的训练方法的有效性。研究表明，在初始训练中使用更先进的模型（如GPT-4）可以优于更复杂的两步方法。这一研究的开源代码已经发布到GitHub上，供科研人员使用和参考...

2024-02-22 talkingdev

知名研究员Nicholas Carlini发布了他用于评估大型语言模型性能的基准。有趣的是，它让GPT-4的表现在大多数其他基准之上。据了解，这个基准是基于多个指标和任务，包括自然语言推理和问答等。

2024-02-22 talkingdev

根据OpenAI平台上的新文档，GPT-4模型的训练数据已更新，包括了截止于2023年12月的信息。GPT-4是一种自然语言处理模型，它可以生成人类能够理解的语言。这一更新表明，GPT-4将有更多的信息可用于训练，以更好地理解...

2024-02-22 talkingdev

Gemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小，远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节，但它能够处理并提取短视...

2024-02-20 talkingdev

最近，这位Reddit用户将两个复杂的代码库放入了GPT-4-Turbo-128K和Gemini 1.5中，并向它们提出了问题。代码库实现了一个并行的inet运行时，因此涉及一些难以处理的编译器内容。在理解代码库的任务中，Gemini 1.5完全...