工业领域OCR数据集发布,涵盖2600万页高质量PDF文档
talkingdev • 2024-04-03
759046 views
近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将为工业领域内的自然语言处理和机器学习研究提供宝贵的资源,有助于提高文档识别、语义理解和自动化处理等技术的发展水平。
talkingdev • 2024-04-03
759046 views
近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将为工业领域内的自然语言处理和机器学习研究提供宝贵的资源,有助于提高文档识别、语义理解和自动化处理等技术的发展水平。