Allen AI近日宣布,其通过持续微调Qwen VL模型,成功训练出一款强大的PDF文本提取工具——OlmOCR。该模型基于超过20万份PDF文档进行训练,能够高效、精准地提取PDF中的文本内容。OlmOCR的推出标志着PDF文本提取技术的...
Read More随着Vision Language Models(VLMs)的快速发展,传统的光学字符识别(OCR)技术正面临被取代的可能。VLMs结合了计算机视觉和自然语言处理的能力,能够更准确地理解和解析图像中的文本内容。与OCR相比,VLMs不仅能识...
Read MoreMeta的Llama项目在开源AI模型与封闭模型的哲学辩论中扮演了关键角色。Llama是Meta全面战略转型的核心,标志着公司全力投入生成性人工智能。2023年7月发布的Llama 2是Meta和创始人马克·扎克伯格(Mark Zuckerberg)的...
Read More近日,一项名为LLM-aided OCR的技术在OCR领域引起了极大的关注,该技术使用LLM(语言模型)来协助纠正Tesseract OCR的错误。Tesseract OCR是一种开源OCR引擎,具有高度的准确性,但仍然无法避免一些错误。LLM-aided...
Read More随着数字化时代的到来,文件的电子化处理已经成为各行各业的标配。然而,文件的电子化处理通常需要时间和人力成本较高的OCR技术,而且现有的OCR技术并不能完全满足用户的需求。为了解决这个问题,一家名为Zerox的初...
Read MoreOpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准,使得科研人员和工程师们能够在相同的条件下,对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...
Read MoreReworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...
Read More近日,MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色,甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言,还在光学字符识别(OCR)和视觉问答(visual quest...
Read More