别再为文本提取抓狂！一站式文本提取神器Kreuzberg 助你解决PDF、图片、文档等多格式文件的文本提取难题

大家好，我是六哥，相信很多朋友肯定都有过从各种文档里提取文本的经历，那过程可太让人头疼了！今天就给大家分享一款超实用的现代Python库——Kreuzberg，帮你轻松解决文本提取的难题。

一、Kreuzberg解决了什么问题

现在很多文本提取工具，要么依赖外部API调用，要么配置特别复杂，使用起来很不方便。而Kreuzberg专为解决RAG（检索增强生成）应用里的文本提取需求而生，不过它可不止这点用处，任何文本提取场景都能完美适配。它专注于本地处理，依赖少，简单又高效。

二、Kreuzberg的强大功能

通用文本提取：不管是可搜索的PDF、扫描版PDF，还是图片、办公文档，Kreuzberg都能从中精准提取文本。比如你要从合同PDF里提取关键条款，或者从产品宣传图里抓取文字信息，它都能轻松搞定。
智能处理：扫描文档能自动OCR识别，文本文件能检测编码。像处理不同来源的文本资料，它能自动识别编码，让乱码问题不再出现。
现代Python设计：采用异步优先的API，基于anyio构建，支持全面的类型提示，方便在IDE中开发，还具备详细的错误处理，包含上下文信息，开发过程更省心。

三、Kreuzberg的显著特点

简单便捷：提供简洁的API，不用复杂配置就能运行，哪怕是新手小白也能轻松上手。
本地处理：无需调用外部API，不依赖云服务，数据安全有保障，没网也能正常工作。
资源高效：轻量级处理，不依赖GPU，普通电脑也能流畅运行，节省硬件成本。
格式支持全面：支持的格式超丰富，涵盖文档、图像、文本等各类格式，基本能满足日常所有需求。

四、使用方法超简单

安装
- 安装Python包：pip install kreuzberg
- 安装系统依赖项：需要Pandoc（用于文档格式转换）和Tesseract OCR（用于图像和PDF光学字符识别），按照各自的安装指南安装就行。
基本使用

Kreuzberg提供了简单的异步文本提取API，主要有两个功能：
- extract_file()：从文件中提取文本，可以接受字符串路径或pathlib.Path 。

from pathlib import Path

from kreuzberg import extract_file, extract_bytes

# 基本文件提取

async def extract_document():

    # 从PDF文件提取

    pdf_result = await extract_file("document.pdf")

    print(f"PDF文本: {pdf_result.content}")

    # 从图像提取

    img_result = await extract_file("scan.png")

    print(f"图像文本: {img_result.content}")

    # 从Word文档提取

    docx_result = await extract_file(Path("document.docx"))

    print(f"Word文本: {docx_result.content}")

- `extract_bytes()`：从字节中提取文本，接受字节字符串。比如处理上传的文件：

from kreuzberg import extract_bytes

async def process_upload(file_content: bytes, mime_type: str):

    """处理已知MIME类型的上传文件内容。"""

    result = await extract_bytes(file_content, mime_type=mime_type)

    return result.content

# 不同文件类型的示例用法

async def handle_uploads():

    # 处理PDF上传

    pdf_result = await extract_bytes(pdf_bytes, mime_type="application/pdf")

    # 处理图像上传

    img_result = await extract_bytes(image_bytes, mime_type="image/jpeg")

    # 处理Word文档上传

    docx_result = await extract_bytes(docx_bytes,

        mime_type="application/vnd.openxmlformats-officedocument.wordprocessingml.document")

高级功能
- PDF处理选项：可以强制对包含嵌入图像或扫描内容的PDF进行OCR处理。

from kreuzberg import extract_file

async def process_pdf():

    # 对包含图像或扫描内容的PDF强制OCR

    result = await extract_file("document.pdf", force_ocr=True)

    # 处理扫描版PDF（自动使用OCR）

    scanned = await extract_file("scanned.pdf")

- **提取结果对象**：所有提取函数返回的对象包含提取的文本（`content`）和输出格式（`mime_type`）。

from kreuzberg import ExtractionResult

async def process_document(path: str) -> tuple[str, str]:

    # 作为具名元组访问

    result: ExtractionResult = await extract_file(path)

    print(f"内容: {result.content}")

    print(f"格式: {result.mime_type}")

    # 或解包为元组

    content, mime_type = await extract_file(path)

    return content, mime_type

- **错误处理**：Kreuzberg通过多种异常类型提供全面的错误处理，所有异常都继承自`KreuzbergError` ，每个异常都包含有助于调试的上下文信息。

from kreuzberg import extract_file

from kreuzberg.exceptions import (

    ValidationError,

    ParsingError,

    OCRError,

    MissingDependencyError

)

async def safe_extract(path: str) -> str:

    try:

        result = await extract_file(path)

        return result.content

    except ValidationError as e:

        # 输入验证问题

        # - 不支持或无法检测的MIME类型

        # - 文件缺失

        # - 无效输入参数

        print(f"验证失败: {e}")

    except OCRError as e:

        # OCR特定问题

        # - Tesseract处理失败

        # - 图像转换问题

        print(f"OCR失败: {e}")

    except MissingDependencyError as e:

        # 系统依赖问题

        # - 缺少Tesseract OCR

        # - 缺少Pandoc

        # - 版本不兼容

        print(f"依赖缺失: {e}")

    except ParsingError as e:

        # 一般处理错误

        # - PDF解析失败

        # - 格式转换问题

        # - 编码问题

        print(f"处理失败: {e}")

    return ""

# 示例错误上下文

try:

    result = await extract_file("document.xyz")

except ValidationError as e:

    # 错误将包含上下文：

    # ValidationError: 不支持的mime类型

    # 上下文: {

    #    "file_path": "document.xyz",

    #    "supported_mimetypes": ["application/pdf",...]

    # }

    print(e)

try:

    result = await extract_file("scan.jpg")

except OCRError as e:

    # 错误将包含上下文：

    # OCRError: OCR返回非0代码失败

    # 上下文: {

    #    "file_path": "scan.jpg",

    #    "tesseract_version": "5.3.0"

    # }

    print(e)

五、支持格式超丰富

文档格式：PDF（可搜索和扫描的文档）、Microsoft Word（.docx ，.doc ）、PowerPoint 演示文稿（.pptx ）、OpenDocument 文本（.odt ）、富文本格式（.rtf ）、EPUB (.epub)、DocBook XML（.dbk ，.xml ）、FictionBook (.fb2)、LaTeX (.tex,.latex)、Typst (.typ)。
标记和文本格式：HTML（.html ，.htm ）、纯文本（.txt ）和Markdown（.md ，.markdown ）、reStructuredText (.rst) 、Org-mode (.org)、DokuWiki (.txt) 、Pod (.pod)、手册页（.1 ，.2 等）。
数据和研究成果格式：Excel 电子表格（.xlsx ）、CSV（.csv ）和TSV（.tsv ）文件、Jupyter Notebooks (.ipynb)、BibTeX（.bib ）和BibLaTeX（.bib ）、CSL-JSON (.json) 、EndNote XML (.xml)、RIS (.ris)、JATS XML（.xml ）。
图片格式：JPEG (.jpg,.jpeg,.pjpeg)、PNG (.png) 、TIFF (.tiff,.tif)、BMP (.bmp) 、GIF (.gif) 、WebP（.webp ）、JPEG 2000（.jp2 ，.jpx ，.jpm ，.mj2 ）、便携式Anymap（.pnm ）、便携式位图（.pbm ）、便携式灰度图（.pgm ）、便携式像素图（.ppm ）。

六、架构设计很巧妙

Kreuzberg设计为在现有开源工具之上的高级异步抽象，集成了多个工具来实现强大功能：

PDF处理：使用pdfium2处理可搜索的PDF文件，Tesseract OCR处理扫描内容。
文档转换：利用Pandoc支持多种文档和标记格式，python-pptx处理PowerPoint文件，html-to-markdown处理HTML内容，还有专门处理Excel电子表格的工具。
文本处理：实现智能编码检测，以及Markdown和纯文本处理。

如果你对Kreuzberg感兴趣，想深入了解或者参与开发，可以访问项目链接：https://github.com/Goldziher/kreuzberg 。

别再为文本提取抓狂！一站式文本提取神器Kreuzberg 助你解决PDF、图片、文档等多格式文件的文本提取难题的更多相关文章

Java 在 Word 文档中使用新文本替换指定文本
创作一份文案,经常会高频率地使用某些词汇,如地名.人名.人物职位等,若表述有误,就需要整体撤换.文本将介绍如何使用Spire.Doc for Java,在Java程序中对Word文档中的指定文本进行替 ...
Flashtext 使用文档大规模数据清洗的利器-实现文本结构化
1.1 安装 pip install flashtext 1.2 使用例子 1.2.1 关键字提取 >>> from flashtext import KeywordProcesso ...
document.write 向文档中写内容，包括文本、脚本、元素之类的，但是它在什么时候执行不会覆盖当前页面内容尼？
当你打开一个页面,浏览器会调用 document.open() 打开文档 document.write(...) 将下载到的网页内容写入文档所有内容写完了,就调用 document.close() ...
使用swagger作为restful api的doc文档生成——从源码中去提取restful URL接口描述文档
初衷记得以前写接口,写完后会整理一份API接口文档,而文档的格式如果没有具体要求的话,最终展示的文档则完全决定于开发者的心情.也许多点,也许少点.甚至,接口总是需要适应新需求的,修改了,增加了,这份 ...
pywin32 pywin32 docx文档转html页面 word doc docx 提取文字图片 html 结构
https://blog.csdn.net/X21214054/article/details/78873338# python docx文档转html页面 - 程序猿tx - 博客园 https:/ ...
FlexPaper 2.2.1介绍与提取嵌入的文档
源起看到某个公司内网的公文使用FlexPaper组件来显示文档,在这儿是GoogleCode Project的主页, 还有现在的官方主页.目前FlexPaper是个开源项目,GPLv3 ...
python、java、ruby、node等如何提取office文档中的内容？
我相信大家都有过这样的需求,把doc.ppt.excel.pdf.txt中的文本内容提取出来.提取出来的文本内容可用于文档内容的全文索引,文档的基本内容摘要等.在度娘上搜索“如何提取文档内容”,确实有 ...
C#word（2007）操作类--新建文档、添加页眉页脚、设置格式、添加文本和超链接、添加图片、表格处理、文档格式转化
转:http://www.cnblogs.com/lantionzy/archive/2009/10/23/1588511.html 1.新建Word文档 #region 新建Word文档/// &l ...
记录EXCEL格式和TXT文本格式之间的互转
EXCEL格式转变成TXT文本格式 1.打开execl文档,点击文件另存为 2.选择txt保存 3.重命名文档,打开该txt文档 4.按Ctrl+H,将文档中空格转换成其他分割符,单击确定 TXT格式 ...
[翻译] DTCoreText 从HTML文档中创建富文本
DTCoreText 从HTML文档中创建富文本 https://github.com/Cocoanetics/DTCoreText 注意哦亲,DTRichTextEditor 这个组件是收费的,不贵 ...

随机推荐

DTL事务控制语言--sql事务
DTL事务控制语言体格sql语句就是一个事务事务可以保证一组sql语句要么都成功,要么都失败默认自动提交一可以关闭 set autocommit=0关闭自动提交最后插入或者修改时只有commit ...
SQL SERVER日常运维巡检系列——数据库备份
前言做好日常巡检是数据库管理和维护的重要步骤,而且需要对每次巡检日期.结果进行登记,同时可能需要出一份巡检报告. 本系列旨在解决一些常见的困扰: 不知道巡检哪些东西不知道怎么样便捷体检机器太多体 ...
Java并发 —— 线程并发（二）
Java 锁 Java 中的锁是在多线程环境下,保证共享资源健康,线程安全的一种手段线程操作某个共享资源之前,先对资源加一层锁,保证操作期间没有其他线程访问资源,操作完成后再释放锁保持数据一致 ...
中电金信：零售经营“新赛道” ——基于手机银行APP专区调研的客群精细化运营分析报告
随着银行业竞争的不断深入及新客户增量日渐"到顶",各家银行的客群竞争逐渐由"跑马圈地"进入"精耕细作"的新阶段,在客群精准化服务方面不断深 ...
断言、drf之请求与响应
目录一.断言二.drf之请求 2.1 Request能够解析的前端传入的编码格式 2.2 Request类有哪些属性和方法(学过) 常用参数 Response类的实例化参数三.drf之响应 3. ...
Qt编写安防视频监控系统54-轮询配置
一.前言视频监控系统中少不了用到视频轮询,按照设计的基本原则,先满足基本的用户需求,稳定跑起来,再去折腾更复杂的应用场景,于是本系统也做了个基本的视频轮询功能,可以设置轮询方案,给某个轮询方案设置轮 ...
vue 路由警告 Duplicate named routes definition
今天在开发的时候,项目报了一个警告 Duplicate named routes definition ,这里记录一下解决方式和思路. 警告产生的原因根据提示内容,我们大概猜测是和路由的name有关 ...
Unix和Windows操作系统中路径中的正斜杠和反斜杠的区别
HUAWEI MindStudio安装配置
HUAWEI MindStudio安装配置官网: 链接安装流程获取软件包软件包说明获取链接 MindStudio_{version}_linux.tar.gz MindStudio软件包, ...
Jetbrain Fleet体验版linxu环境开发Python初体验
Jetbrain Fleet体验版linxu环境开发Python初体验 (base) linxu@linxu-PC:~/Projects/FleetProjects$ conda activate d ...