研究人员扩展了SCB-ST-Dataset4,该数据集记录了诸如举手、阅读和书写等活动,以更好地通过深度学习来了解和检测学生的课堂行为。这个数据集是通过在课堂上安装传感器来捕捉学生行为的。研究人员使用了不同的深度学...
Read More经过增强的LLaMA模型现已包含16,000个泰米尔语令牌,利用了LoRA方法进行高效训练。这个更新,连同Alpaca和OpenOrca数据集的新的泰米尔语版本,显著改进了泰米尔语文本处理,为印度语言人工智能的未来发展铺平了道路...
Read More据外媒报道,OpenAI近日宣布启动数据伙伴计划,旨在与合作伙伴共同构建开放和私有的AI训练数据集。这个计划的启动也许意味着OpenAI即将用尽其下一轮模型训练的代币。OpenAI表示,他们需要大量的数据来训练AI模型,但...
Read MoreRed Pajama v2已发布。它比用于训练GPT-4的数据集大2.5倍。它包含5种语言的多语言数据,并具有令人印象深刻的广度。重要的是,已经完成了许多去重工作和一些启发式过滤工作,没有代码数据。
Read More数据污染和其他数据管道攻击是网络安全界面临的巨大挑战,同时也是大多数AI组织的盲点。本文介绍了这些攻击的方式,并提供了代码以帮助未来进行缓解。AI数据管道遭受攻击可能会导致数据泄露,模型失效,模型被篡改等...
Read MoreQdrant是一个基于Rust语言开发的矢量数据库,它使用高速度的矢量检索技术来存储嵌入式向量。近日,Qdrant发布了一个名为“类似帖子”的新功能,它可以使用最相似的向量来搜索数据集。这个功能可以广泛应用于社交网络、...
Read More