Skip to content

https://github.com/allenai/olmocr Toolkit for linearizing PDFs for LLM datasets/training 用于为LLM数据集/训练线性化PDF的工具包

olmOCR 是 Ai2 推出的开源工具,用在将 PDF 文档高效转换为干净的结构化纯文本。olmOCR结合文档锚定(document-anchoring)技术与Qwen2-VL-7B-Instruct(阿里多模态模型),支持处理多种类型的 PDF 文档,包括学术论文、书籍、表格和图表等。olmOCR基于提取文档中的文本和布局信息,与页面图像结合,更准确地提取内容、保留结构化信息。olmOCR支持大规模批量处理,每百万页的处理成本仅为 190 美元,远低于其他商业解决方案。

olmOCR-7B:文档提取专用模型

olmOCR在250,000页的数据集上微调了Qwen2-VL-7B-Instruct模型,旨在将PDF和文档图像转换为干净且结构化的纯文本。

为了帮助处理电子文档,我们推出了olmOCR,这是一款高性能工具包,旨在将PDF和文档图像转换为干净且结构化的纯文本。olmOCR有何不同之处?

  • 性能:我们在250,000页的数据集上微调了olmOCR,这些数据来自多样化的PDF集合。有些是数字原生的,而其他则是公共领域书籍的扫描副本。这确保了olmOCR能够准确地从各种文档中提取文本。

  • 成本效益:使用olmOCR工具包处理一百万页PDF的成本约为190美元,大约仅为使用GPT-4o API批量处理相同数量页面成本的1/32。

  • Markdown输出:olmOCR以Markdown格式输出文本,便于解析和处理。它可以处理方程、表格和手写文字,并按照正确的阅读顺序处理最复杂的多列文档布局。

  • 开箱即用:olmOCR是一个完全优化的管道,适用于SGLang和vLLM推理引擎。它从一个到数百个GPU都能高效扩展,并包括处理常见解析失败和元数据错误的启发式方法。

  • 完全开源:olmOCR基于Qwen2-VL-7B-Instruct构建。我们发布了工具包的所有组件:模型权重,微调数据集,训练和推理代码。

查看olmOCR如何与比较其他领先的文档提取工具,并了解我们如何构建它。准备好试用后,请访问我们的GitHub仓库以在自己的项目中使用olmOCR。

Ref

https://ai-bot.cn/olmocr/ https://olmocr.allenai.org/blog https://mp.weixin.qq.com/s/cDALTMV8xwgApbGCvPqeXA