语言模型的相关内容 - 漫话开发者

2024-02-05 talkingdev

AI2发布全面开放的开放语言模型OLMo

AI2发布了一个完全开放的语言模型训练框架，名为OLMo。该模型提供全面的资源，包括完整的训练数据、模型权重、训练和评估代码、每个模型超过500个检查点，以及未来的微调代码，所有这些都遵循Apache 2.0许可证。这些...

2024-02-02 talkingdev

Monte Carlo Tree Search (MCTS)是一种先进的搜索算法。它被用于AlphaGo中，研究人员现在正在努力将其与语言模型集成。MCTS的实现一直以来都非常棘手，但是Jax的出现使得它变得更为容易。现在，开发者们可以在GitHub...

2024-02-02 talkingdev

Llava是一种视觉语言模型，最新版本为1.6，经过改进后，其OCR、推理和世界知识等方面有了很大提升，甚至在某些任务上可以与Gemini相媲美。Llava团队计划发布数据、代码和模型，以便更多人能够使用。

2024-02-02 talkingdev

1月份微软研究论坛上，Dipendra Misra提出了一种名为“Layer-Selective Rank Reduction（LASER）”的技术，通过用一个较小的近似矩阵替换权重矩阵，提高了大型语言模型（LLM）的准确性。

2024-02-02 talkingdev

AI社区因HuggingFace和4chan分享的一个名为“miqu-1-70b”的泄漏大型语言模型而感到兴奋。该模型表现出能与OpenAI的GPT-4相媲美的性能，并与Mistral的Mixtral 8x7b有关。Mistral的CEO确认这是一位热情的客户泄露的，这...

2024-02-01 talkingdev

SliceGPT引入了一种新的后训练稀疏化方案，以减少大型语言模型的资源需求。通过将权重矩阵替换为较小的矩阵并减少嵌入维度，它可以在主要模型（如LLAMA2-70B和OPT 66B）中删除高达25%的模型参数，同时保留高达99%的...

2024-02-01 talkingdev

Enchanted 是一个开源的 iOS 应用，它允许你在移动设备上运行语言模型。该应用能够快速地识别语音和文本并进行分类，是一个非常有用的工具。这个项目的代码已经在 GitHub 上公开，并且允许开发者自由调整和使用。

2024-02-01 talkingdev

在训练语言模型时，一个挑战是为任务找到足够多样化的数据集。更难的是，将这些数据可视化。这个很酷的工具使用快速聚类和主题建模，使得可以探索数据，以改善过滤和整体质量。