漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-03-11 talkingdev

Axolotl开源,本地GPU上训练大模型取得突破

上周,在小型GPU上训练大型模型取得了突破。这个配置展示了如何使用这些技术在消费级硬件上训练Mixtral

Read More
2024-02-14 talkingdev

AI初创公司Reka发布更新多模态模型

AI初创公司Reka宣布推出了一个新的模型,该模型具备210亿个参数,完全从头开始训练。它是本地多模态的,胜过了Llama 70B和Mixtral在多项关键基准测试中。重要的是,考虑到该公司的创始人曾经工作的公司,它也匹配了G...

Read More
2024-02-02 talkingdev

Mistral CEO确认泄露的新开源AI模型接近GPT-4的性能

AI社区因HuggingFace和4chan分享的一个名为“miqu-1-70b”的泄漏大型语言模型而感到兴奋。该模型表现出能与OpenAI的GPT-4相媲美的性能,并与Mistral的Mixtral 8x7b有关。Mistral的CEO确认这是一位热情的客户泄露的,这...

Read More
2024-01-20 talkingdev

用GPT-4对Mixtral进行微调

Mixtral是一款人工智能软件,可用于数据处理和分析。使用GPT-4对其进行微调,可以快速降低其使用成本。GPT-4是最新一代的自然语言处理模型,具有更高的性能和更广泛的应用场景。在测试中,Mixtral与GPT-4的结合效果...

Read More
2024-01-20 talkingdev

Mega Dolphin成功合并

Dolphin被广泛认为是可用性最强的未经审查的开放模型之一。它主要建立在Mixtral上。这个120B的模型是通过合并两个较小的Dolphin模型而制成的。研究发现,与Goliath 120B一起使用这种合并过程可以提高整体模型性能。

Read More
2024-01-11 talkingdev

Mixtral of Experts论文发布

Mixtral论文已经发布。该论文没有讨论预训练数据集。大部分的内容都是众所周知的,但是在专家路由评估的讨论中有一个有趣的新见解。

Read More