Python OCR文字识别进阶教程如何实现文档识别与表格提取实战

来源：中国站长站作者：菲律宾程序员头衔：程序员

导读：本期聚焦于小伙伴创作的《Python OCR文字识别进阶教程如何实现文档识别与表格提取实战》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python OCR文字识别进阶教程如何实现文档识别与表格提取实战》有用，将其分享出去将是对创作者最好的鼓励。

Python OCR文字识别的进阶应用需要兼顾文档排版分析和结构化数据提取，相比基础文本识别，文档识别和表格提取需要额外处理版面元素定位、表格线条分割等问题，下面将从环境准备到实战实现逐步讲解。

环境准备与依赖安装

实现文档识别与表格提取需要安装Python基础环境以及相关的OCR和图像处理库，具体依赖如下：

Python 3.8及以上版本
pytesseract：Tesseract OCR的Python封装库
Pillow：图像处理基础库
opencv-python：用于图像预处理和表格线条检测
pandas：用于处理提取后的表格数据

安装命令如下：

pip install pytesseract pillow opencv-python pandas

同时需要安装Tesseract OCR引擎，Windows用户可下载安装包配置环境变量，Linux用户可通过包管理器直接安装，安装完成后需要配置pytesseract的路径指向Tesseract可执行文件。

文档预处理核心步骤

扫描版文档往往存在倾斜、噪点、对比度不足等问题，直接识别会导致准确率下降，需要先做预处理：

1. 图像灰度化与二值化

将彩色图像转为灰度图后，通过阈值处理转为黑白二值图像，减少干扰信息：

import cv2
from PIL import Image

def preprocess_image(image_path):
    # 读取图像
    img = cv2.imread(image_path)
    # 转为灰度图
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # 二值化处理，大于127的像素设为255，其余设为0
    _, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY_INV)
    # 转为PIL图像格式供后续识别使用
    pil_img = Image.fromarray(binary)
    return pil_img

2. 倾斜校正

如果文档存在倾斜，需要先检测倾斜角度并校正，避免识别时文字错位：

def correct_skew(binary_img):
    # 检测图像中的轮廓
    contours, _ = cv2.findContours(binary_img, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    # 找到最大轮廓的包围矩形
    if contours:
        largest_contour = max(contours, key=cv2.contourArea)
        rect = cv2.minAreaRect(largest_contour)
        angle = rect[2]
        # 调整角度范围
        if angle < -45:
            angle = 90 + angle
        # 旋转图像校正倾斜
        (h, w) = binary_img.shape[:2]
        center = (w // 2, h // 2)
        rotation_matrix = cv2.getRotationMatrix2D(center, angle, 1.0)
        corrected = cv2.warpAffine(binary_img, rotation_matrix, (w, h), flags=cv2.INTER_CUBIC, borderMode=cv2.BORDER_REPLICATE)
        return corrected
    return binary_img

基础文档文字识别实现

预处理完成后，就可以调用Tesseract进行文字识别，同时可以指定语言包提升中文识别准确率：

import pytesseract

# 如果Tesseract未加入环境变量，需要指定路径
# pytesseract.pytesseract.tesseract_cmd = r'C:Program FilesTesseract-OCRtesseract.exe'

def extract_text(preprocessed_img):
    # 设置识别语言为中文简体，psm 3表示自动分页分割识别
    text = pytesseract.image_to_string(preprocessed_img, lang='chi_sim', config='--psm 3')
    return text

如果需要识别带格式的文档，可以获取文字的位置信息，方便后续做版面分析：

def extract_text_with_boxes(img):
    # 获取文字及其边界框信息
    data = pytesseract.image_to_data(img, lang='chi_sim', output_type=pytesseract.Output.DICT)
    text_boxes = []
    for i in range(len(data['text'])):
        if int(data['conf'][i]) > 60:  # 过滤置信度低于60的识别结果
            box_info = {
                'text': data['text'][i],
                'left': data['left'][i],
                'top': data['top'][i],
                'width': data['width'][i],
                'height': data['height'][i]
            }
            text_boxes.append(box_info)
    return text_boxes

表格提取实战实现

表格提取需要先检测表格的行列结构，再对应提取每个单元格的内容，核心步骤如下：

1. 表格线条检测

通过形态学操作检测表格的横线和竖线，定位表格的行列分割位置：

def detect_table_lines(binary_img):
    # 定义横向和纵向的核，用于检测线条
    horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (40, 1))
    vertical_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1, 40))
    # 检测横线
    horizontal_lines = cv2.morphologyEx(binary_img, cv2.MORPH_OPEN, horizontal_kernel, iterations=2)
    # 检测竖线
    vertical_lines = cv2.morphologyEx(binary_img, cv2.MORPH_OPEN, vertical_kernel, iterations=2)
    # 合并横线和竖线得到表格网格
    table_grid = cv2.addWeighted(horizontal_lines, 0.5, vertical_lines, 0.5, 0.0)
    # 转为二值图像
    _, table_grid = cv2.threshold(table_grid, 127, 255, cv2.THRESH_BINARY)
    return table_grid

2. 单元格分割与内容提取

根据检测到的网格线分割出单个单元格，再对每个单元格做文字识别：

import numpy as np
import pandas as pd

def extract_table(img_path):
    # 读取原始图像并预处理
    img = cv2.imread(img_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    _, binary = cv2.threshold(gray, 127, 255, cv2.THRESH_BINARY_INV)
    # 检测表格网格
    table_grid = detect_table_lines(binary)
    # 查找轮廓获取单元格位置
    contours, _ = cv2.findContours(table_grid, cv2.RETR_TREE, cv2.CHAIN_APPROX_SIMPLE)
    # 按位置排序轮廓，先按y坐标排序，再按x坐标排序
    contours = sorted(contours, key=lambda c: (cv2.boundingRect(c)[1], cv2.boundingRect(c)[0]))
    # 提取每个单元格的内容
    table_data = []
    current_row = []
    prev_y = -1
    for contour in contours:
        x, y, w, h = cv2.boundingRect(contour)
        # 过滤过小的轮廓，避免识别到噪点
        if w < 20 or h < 20:
            continue
        # 判断是否属于同一行，y坐标差小于20视为同一行
        if prev_y == -1 or abs(y - prev_y) < 20:
            current_row.append((x, y, w, h))
        else:
            # 同一行的单元格按x坐标排序
            current_row.sort(key=lambda item: item[0])
            table_data.append(current_row)
            current_row = [(x, y, w, h)]
        prev_y = y
    # 处理最后一行
    if current_row:
        current_row.sort(key=lambda item: item[0])
        table_data.append(current_row)
    # 识别每个单元格的文字
    result_table = []
    for row in table_data:
        row_text = []
        for x, y, w, h in row:
            # 裁剪出单元格区域
            cell_img = img[y:y+h, x:x+w]
            # 转为PIL格式识别文字
            pil_cell = Image.fromarray(cv2.cvtColor(cell_img, cv2.COLOR_BGR2RGB))
            cell_text = pytesseract.image_to_string(pil_cell, lang='chi_sim', config='--psm 6')
            row_text.append(cell_text.strip())
        result_table.append(row_text)
    # 转为DataFrame返回
    df = pd.DataFrame(result_table)
    return df

常见问题与优化方案

实际使用中可能会遇到识别准确率低、表格结构错乱等问题，可参考以下优化方案：

如果文档背景复杂，可增加去噪步骤，使用高斯模糊或者中值滤波减少噪点
表格线条不清晰时，可调整形态学操作的核大小，增强线条检测效果
识别中文准确率不足时，可训练自定义Tesseract语言包，或者替换为PaddleOCR等识别效果更好的引擎
对于合并单元格的复杂表格，可结合版面分析模型先识别单元格合并规则，再做内容提取

实战示例整合

以下是完整的文档识别与表格提取调用示例：

if __name__ == '__main__':
    # 文档路径，替换为实际文件路径
    doc_path = 'test_document.jpg'
    # 预处理图像
    pil_img = preprocess_image(doc_path)
    # 提取文档文字
    doc_text = extract_text(pil_img)
    print('文档识别结果：')
    print(doc_text)
    # 提取表格数据
    table_df = extract_table(doc_path)
    print('表格提取结果：')
    print(table_df)
    # 保存表格到Excel
    table_df.to_excel('extracted_table.xlsx', index=False, header=False)

通过以上步骤，就可以实现Python下文档的文字识别和表格提取功能，可根据实际业务场景调整预处理参数和识别配置，提升处理准确率。

Python_OCR 文档识别表格提取 Tesseract修改时间：2026-06-26 03:43:00

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。