Phind的70B代码模型在人类评估中获得83%的高分,与GPT-4表现相当。关键是它拥有显著较少的慵懒回应和拒绝。34B模型即将发布,更大的70B模型也将在未来发布。
Read MoreGTBench是一个用于测试类似GPT-4这样的LLMs在各种游戏场景中发现其在策略推理方面的优势和劣势的平台。虽然这些模型在基于概率的游戏中表现出很大的潜力,但在确定性游戏中表现不佳,并且在设计和训练上表现也有所不...
Read MorePredibase发布了25个狭窄的任务特定LoRA,每个在特定任务上都能超越GPT-4。这些任务特定的LoRA是建立在Mistral 7B模型之上的。这再次证明了本地模型在精确任务上表现异常出色的能力。
Read More近日,一项新的研究挑战了结合监督微调和强化学习的训练方法的有效性。研究表明,在初始训练中使用更先进的模型(如GPT-4)可以优于更复杂的两步方法。这一研究的开源代码已经发布到GitHub上,供科研人员使用和参考...
Read More知名研究员Nicholas Carlini发布了他用于评估大型语言模型性能的基准。有趣的是,它让GPT-4的表现在大多数其他基准之上。据了解,这个基准是基于多个指标和任务,包括自然语言推理和问答等。
Read More根据OpenAI平台上的新文档,GPT-4模型的训练数据已更新,包括了截止于2023年12月的信息。GPT-4是一种自然语言处理模型,它可以生成人类能够理解的语言。这一更新表明,GPT-4将有更多的信息可用于训练,以更好地理解...
Read MoreGemini Pro 1.5是Gemini系列的一次巨大升级。该模型具有100万令牌上下文大小,远大于Claude 2.1的20万和gpt-4-turbo的12.8万令牌上下文大小。虽然该模型仍然可能漏掉一些东西并产生错误细节,但它能够处理并提取短视...
Read More最近,这位Reddit用户将两个复杂的代码库放入了GPT-4-Turbo-128K和Gemini 1.5中,并向它们提出了问题。代码库实现了一个并行的inet运行时,因此涉及一些难以处理的编译器内容。在理解代码库的任务中,Gemini 1.5完全...
Read More