漫话开发者 - UWL.ME 精选全球AI前沿科技和开源产品
2024-08-09 talkingdev

LLM辅助OCR技术——使用LLM纠正Tesseract OCR的错误

近日,一项名为LLM-aided OCR的技术在OCR领域引起了极大的关注,该技术使用LLM(语言模型)来协助纠正Tesseract OCR的错误。Tesseract OCR是一种开源OCR引擎,具有高度的准确性,但仍然无法避免一些错误。LLM-aided...

Read More
2024-07-23 talkingdev

zerox-文档OCR新时代, GPT-mini引领技术变革

随着数字化时代的到来,文件的电子化处理已经成为各行各业的标配。然而,文件的电子化处理通常需要时间和人力成本较高的OCR技术,而且现有的OCR技术并不能完全满足用户的需求。为了解决这个问题,一家名为Zerox的初...

Read More
2024-07-22 talkingdev

OpenOCR-统一开源的文本检测与识别基准

OpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准,使得科研人员和工程师们能够在相同的条件下,对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...

Read More
2024-05-23 talkingdev

Tarsier:提升LLMs与网页交互的开源工具

Reworkd公司近日发布了一款名为Tarsier的新工具,旨在通过使用括号和ID对网页元素进行视觉标记,增强大语言模型(LLMs)的网页交互任务处理能力。Tarsier利用OCR生成的文本表示,使得没有视觉功能的LLM也能理解网页...

Read More
2024-05-23 talkingdev

MiniCMP-V开源新版本,可在手机上处理视觉任务

近日,MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色,甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言,还在光学字符识别(OCR)和视觉问答(visual quest...

Read More
2024-05-22 talkingdev

DeepSeek-VL:面向现实世界的开源视觉语言模型

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化,包括来自网页截图、图表以及 OCR(光学字符识别)数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

Read More
2024-05-09 talkingdev

开源模型DocRes:一站式处理文档图像修复

近期,GitHub上发布了一款名为DocRes的新模型,能够简化文档图像修复的复杂性。该模型旨在处理五个任务:去扭曲、去阴影、美化外观、去模糊以及二值化。所有这些功能都集成在一个系统中,使得用户可以在一个平台上完...

Read More
2024-04-03 talkingdev

工业领域OCR数据集发布,涵盖2600万页高质量PDF文档

近日,一个庞大的工业文档OCR数据集正式发布,该数据集包含了2600万页的高质量PDF文档,总计约180亿个标记。这些文档涵盖了工业领域的广泛内容,包括机械设计、电气工程、自动化控制等多个方面。该数据集的发布,将...

Read More
  1. 1
  2. 2
  3. 3
  4. Next Page