大型语言模型的相关内容 - 漫话开发者

2024-02-08 talkingdev

移动端本地微型语言模型大有可为

近日，一项研究探讨了如何通过采用参数更少的微型语言模型，使得强大的语言模型更适合移动设备。研究人员发现，相较于传统的大型语言模型，微型语言模型在保证语言表达能力的前提下，可以极大地减少模型参数，从而显...

2024-02-07 talkingdev

Roblox开发了一种AI模型，能够实时翻译16种语言的文本聊天，以打破语言壁垒，增强用户参与度。该模型利用基于转换器的大型语言模型，在混合专家架构中实现了高效的资源利用，同时保持了其隐私和安全流程。

2024-02-02 talkingdev

1月份微软研究论坛上，Dipendra Misra提出了一种名为“Layer-Selective Rank Reduction（LASER）”的技术，通过用一个较小的近似矩阵替换权重矩阵，提高了大型语言模型（LLM）的准确性。

2024-02-02 talkingdev

AI社区因HuggingFace和4chan分享的一个名为“miqu-1-70b”的泄漏大型语言模型而感到兴奋。该模型表现出能与OpenAI的GPT-4相媲美的性能，并与Mistral的Mixtral 8x7b有关。Mistral的CEO确认这是一位热情的客户泄露的，这...

2024-02-01 talkingdev

SliceGPT引入了一种新的后训练稀疏化方案，以减少大型语言模型的资源需求。通过将权重矩阵替换为较小的矩阵并减少嵌入维度，它可以在主要模型（如LLAMA2-70B和OPT 66B）中删除高达25%的模型参数，同时保留高达99%的...

2024-01-26 talkingdev

Ollama发布了Python和JavaScript库的初始版本，使得开发者能够在几行代码中将新的和现有的应用程序与Ollama集成。Ollama支持广泛的模型，包括Mistral、Dolphin、Llama2和Orca，使得开发者可以轻松地在本地运行大型语...

2024-01-24 talkingdev

本文作者根据模型扩展的进展修改了其人工智能时间表预测。他们现在估计，到2028年有10%的机会实现人工智能通用智能，并且到2045年有50%的机会。这些变化归因于大型语言模型的有效性以及多个智能能力可能会在规模上出...

2024-01-23 talkingdev

机器学习工程开源书籍发布，该项目是一个开放的方法论集合，旨在帮助成功训练大型语言模型和多模态模型。该材料适用于LLM/VLM培训工程师和运营人员。书籍包含大量脚本和复制粘贴命令，以使读者能够快速解决问题。该...