漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-04-12 talkingdev

JetMoe:性能媲美Meta Llama 2 7B的AI模型,成本仅为10万美元

JetMoe是一个基于混合专家模型的新AI系统,通过使用公共数据集和合理的计算资源进行训练,其性能与Meta的Llama 2 7B模型相媲美,但成本仅为10万美元。这一突破性的技术成果不仅展示了在不牺牲性能的前提下降低AI模型...

Read More
2024-04-11 talkingdev

DataMotto:利用人工智能技术实现数据准备和清洗

DataMotto是一款创新的数据处理工具,致力于通过人工智能技术简化数据准备和清洗的过程。在大数据时代,数据的质量和可用性对于商业决策和科学研究至关重要。DataMotto通过先进的机器学习算法,自动识别数据中的异常...

Read More
2024-04-10 talkingdev

论文:OA-DG方法助力单域目标检测性能提升

在目标检测领域,单域泛化(S-DG)一直是一个挑战。为了解决这一问题,最新的OA-DG方法应运而生。该方法采用了OA-Mix数据增强技术以及OA-Loss训练策略,旨在提高模型在单域环境下的泛化能力。OA-Mix通过混合不同类别...

Read More
2024-04-05 talkingdev

Gretel开源2300万文本至SQL数据集,助力自然语言处理技术发展

HuggingFace平台上新发布了一个由Gretel收集的大规模文本至SQL数据集,包含2300万条数据。该数据集旨在通过自然语言处理技术生成SQL查询语句,对RAG应用程序和合成数据生成领域具有重要意义。文本至SQL的任务一直是...

Read More
2024-04-04 talkingdev

RealKIE发布:五个新型数据集助力企业关键信息提取

企业人工智能应用中,从数据集中提取信息至关重要。RealKIE最新发布的五个基准数据集专为衡量RAG(检索式生成)应用的算法性能而设计。这些数据集覆盖了多个行业和场景,提供了丰富的测试样本,旨在推动企业关键信息...

Read More
2024-04-03 talkingdev

HuggingFace团队揭示大规模合成数据在预训练模型中的应用

HuggingFace团队最近展示了如何为语言模型的预训练阶段生成、筛选、合成和扩展大量的合成数据。这一过程不仅涉及数据的生成,还包括对数据进行精心的筛选和过滤,以确保其在模型训练中的有效性和准确性。通过这种方...

Read More
2024-04-03 talkingdev

Chug数据集加载器:专注于文本和图像任务的高效多模态数据加载

近期,GitHub上出现了一个名为Chug的新型数据集加载器项目。Chug专注于处理文本和图像任务,提供了强大且高效的多模态数据加载能力。该工具的出现,对于从事机器学习和人工智能领域的开发者来说,无疑是一个极大的助...

Read More
2024-04-03 talkingdev

工业领域OCR数据集发布,涵盖2600万页高质量PDF文档

近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将...

Read More
  1. Prev Page
  2. 7
  3. 8
  4. 9
  5. Next Page