OCR的相关内容 - 漫话开发者

2024-11-22 talkingdev

Meta全面转型：扎克伯格如何以Llama重构公司战略

Meta的Llama项目在开源AI模型与封闭模型的哲学辩论中扮演了关键角色。Llama是Meta全面战略转型的核心，标志着公司全力投入生成性人工智能。2023年7月发布的Llama 2是Meta和创始人马克·扎克伯格（Mark Zuckerberg）的...

2024-08-09 talkingdev

近日，一项名为LLM-aided OCR的技术在OCR领域引起了极大的关注，该技术使用LLM（语言模型）来协助纠正Tesseract OCR的错误。Tesseract OCR是一种开源OCR引擎，具有高度的准确性，但仍然无法避免一些错误。LLM-aided...

2024-07-23 talkingdev

随着数字化时代的到来，文件的电子化处理已经成为各行各业的标配。然而，文件的电子化处理通常需要时间和人力成本较高的OCR技术，而且现有的OCR技术并不能完全满足用户的需求。为了解决这个问题，一家名为Zerox的初...

2024-07-22 talkingdev

OpenOCR是一个旨在统一场景文本检测与识别算法的训练和评估基准。它通过提供一系列的评估标准，使得科研人员和工程师们能够在相同的条件下，对他们的算法进行测试与比较。这为文本检测与识别领域的研究提供了一个公...

2024-05-23 talkingdev

Reworkd公司近日发布了一款名为Tarsier的新工具，旨在通过使用括号和ID对网页元素进行视觉标记，增强大语言模型（LLMs）的网页交互任务处理能力。Tarsier利用OCR生成的文本表示，使得没有视觉功能的LLM也能理解网页...

2024-05-23 talkingdev

近日，MiniCMP-V发布了一个基于Llama 3训练的新版本。这款8B模型在多个任务上表现出色，甚至超越了许多闭源的专有模型。新版本的MiniCMP-V不仅支持30种不同的语言，还在光学字符识别（OCR）和视觉问答（visual quest...

2024-05-22 talkingdev

DeepSeek-VL 是一个专注于现实世界应用的全新开源视觉语言模型。该模型特别针对多样化的数据进行了优化，包括来自网页截图、图表以及 OCR（光学字符识别）数据的处理。DeepSeek-VL 的设计目标是提高在复杂和多样化数...

2024-05-09 talkingdev

近期，GitHub上发布了一款名为DocRes的新模型，能够简化文档图像修复的复杂性。该模型旨在处理五个任务：去扭曲、去阴影、美化外观、去模糊以及二值化。所有这些功能都集成在一个系统中，使得用户可以在一个平台上完...