语言模型的相关内容 - 漫话开发者

2023-11-13 talkingdev

LongQLoRA：提升LLMs上下文理解能力

GitHub上有一个新的工具——LongQLoRA，它可以让LLMs（语言模型）理解更长的序列。LLMs已经在自然语言处理方面取得了很大的成功，但它们的上下文理解能力有限。长序列的理解也是LLMs的一个挑战。LongQLoRA通过对序列切...

2023-11-13 talkingdev

谷歌利用MaxText和Jax训练技术，同时在超过5万个芯片上进行了LLM（语言模型）训练任务，保持了66%以上的利用率，成为了最佳MFU的强有力竞争者。该项目主要基于专有技术，但其中展示了一些有趣的细节，对于其他大规模...

2023-11-10 talkingdev

Cohere的最新模型是用于与真实世界的嘈杂数据互动的搜索应用的升级，以及用于检索增强生成（RAG）系统的应用。其多语言模型现在支持100多种语言，并可用于搜索同一语言内的内容（例如，在法国文档上使用法语查询进行...

2023-11-09 talkingdev

CogVLM-17B是一个开放式的视觉语言模型，具有100亿视觉参数和70亿语言参数。该模型在许多标准基准测试中表现出色，并在人类评估中表现良好。CogVLM-17B的性能优于以往的模型，将为计算机视觉和自然语言处理领域的发...

2023-11-09 talkingdev

DARE方法可以简化语言模型（如BERT）的增强过程，允许将新功能集成到统一模型中，从而在各种语言任务中提高效率。

2023-11-09 talkingdev

跨视角训练（SCT）可以提高小型语言模型的性能，使其能够生成先前仅可由较大模型实现的句子嵌入，从而优化性能和计算效率。

2023-11-09 talkingdev

Nvidia在IEEE/ACM计算机辅助设计国际会议上发表主题演讲，介绍了一款名为ChipNeMo的大型语言模型，旨在提高芯片设计师的生产力。尽管尚未完全证明，但ChipNeMo有助于为设计工具编写脚本，总结错误报告，并为设计师提...

2023-11-08 talkingdev

近日，研究人员提出了一种名为CLLM4Rec的全新方法，该方法通过高级预训练和新型语言嵌入，将大型语言模型与基于ID的系统相结合，提高了推荐精度。研究人员表示，CLLM4Rec的核心在于将大型语言模型与基于ID的系统相结...