训练数据的相关内容 - 漫话开发者

2024-05-03 talkingdev

开源实现扩展LLM大模型到128K上下文长度

一项最新的研究揭示了一种能够显著扩展语言模型上下文长度至128K的方法。这项研究强调了大量和多样性的训练数据的重要性。语言模型的上下文长度是语言模型理解和生成连贯文本的能力的一个重要因素。此项新的研究方法...

2024-05-02 talkingdev

本次调查报告深入探讨了检索增强语言模型（RALMs）的领域，重点展示了它们的演变过程、结构以及在NLP任务中的多样化应用，如翻译和对话系统。检索增强语言模型是一种新型的语言模型，不仅通过训练数据生成文本，还能...

2024-04-11 talkingdev

策略引导扩散（Policy-Guided Diffusion）是一种新颖的训练代理的方法，适用于离线环境。该技术通过创建与行为和目标策略都非常接近的综合轨迹，从而生成更加真实的训练数据。这不仅有助于提高离线强化学习模型的性...

2024-04-10 talkingdev

Longcontext Alpaca训练技术最近取得了重大突破，通过在H100硬件上使用新的梯度累积卸载技术，成功训练了超过200,000个上下文窗口。这种创新方法使得大规模深度学习模型的训练变得更加高效，显著提高了计算资源的利...

2024-04-09 talkingdev

当前神经网络在超出其训练数据的情况下泛化能力有限，这限制了它们的推理和可靠性。为了实现人工通用智能（AGI），我们需要寻找替代方法。专家认为，尽管深度学习和神经网络在特定任务上取得了显著成就，但它们距离...

2024-04-08 talkingdev

近期，科技巨头们在人工智能领域领跑的比赛中采取了一些颇具争议性的数据获取方式。OpenAI通过开发名为Whisper的语音识别工具，成功从YouTube视频中转录音频，为训练其AI系统提供了新文本。该团队最终转录了超过一百...

2024-03-20 talkingdev

近日，一项名为Poster Dataset Distillation的技术引起了广泛关注。该技术能够将庞大的数据集压缩成一个单一的'海报'，使得人工智能模型能够通过不到一张每个类别的图片进行学习。这一创新方法大幅减少了训练AI模型...

2024-03-11 talkingdev

来自不同厂商的四款新模型正在挑战GPT-4长期以来的顶尖大型语言模型的地位，展示了能力和应用方面的不断进步，但它们都没有公开许可证或透明地公开其训练数据。