模型的相关内容 - 漫话开发者

2024-07-19 talkingdev

OpenAI推出新款小型模型GPT-4o Mini，颠覆GPT-3.5

OpenAI近日推出了一款新型小型模型——GPT-4o Mini，目标是替代现有的GPT-3.5模型。GPT-4o Mini在MMLU（Mixed Multi-Level Understanding）上的得分为82，这对于低成本模型来说是相当合理的表现。OpenAI一直致力于开发...

2024-07-19 talkingdev

Mistral公司与Nvidia携手研发的全新多语言模型Nemo 12B已经正式发布。这款模型采用了全新的分词器进行训练，展现出了强大的多语言和英语处理能力。值得一提的是，Nemo 12B还支持128k的上下文。这种强大的性能，无疑...

2024-07-18 talkingdev

据Composable最新发布的一份报告，81%的技术团队预计在未来两年内将运行2个以上的GenAI模型。然而，为何大多数的项目仍处于试验阶段？这是许多业界人士都在关注的问题。此份报告详尽地分析了当前企业在实施LLM方面的...

2024-07-18 talkingdev

OpenAI训练了一个强大的模型，以便为弱模型输出更易读的文本，并发现这导致了LLM整体可读性的普遍提高。通过对弱模型进行精准评估，强模型的文本输出效果得到大幅提升。在日常实际应用中，这种提升将促进文本信息的...

2024-07-17 talkingdev

近日，Reka和Google的Yi Tay发表了一篇精彩的文章，详细讲述了编码器、prefixlm、降噪目标等现代语言建模技巧。在这篇文章中，Yi Tay详细分析了一些对于语言建模领域的最新的研究成果和思考。他深入剖析了编码器的工...

2024-07-17 talkingdev

Hugging Face近日推出了一套名为SmolLLM的小型语言模型套件，其性能超越许多大型模型。这主要得益于数据集的精心策划和管理。SmolLLM以其精细的设计和优化，展示出了小型语言模型的巨大潜力和价值。这种模型不仅在处...

2024-07-17 talkingdev

近日，一种名为解耦拒绝训练（DeRTa）的新方法被提出，这种新方法通过解决拒绝位置偏差问题，进一步提高了大型语言模型（LLMs）的安全性调优效果。LLMs在各类应用场景中起着重要作用，安全性问题也因此变得尤为重要...

2024-07-17 talkingdev

研究人员已经开发了一种物理信息扩散（PID）模型，通过将物理定律纳入过程，以改进从RGB图像到红外图像的转换。这种模型结合了物理学和计算机科学的知识，使得图像转换更加精确、真实。这种新技术的应用领域非常广泛...