如何使用 iText 7 在 Java 中精准删除 PDF 文档中的指定段落

来源：AI社区作者：深圳网站建设头衔：草根站长

导读：本期聚焦于小伙伴创作的《如何使用 iText 7 在 Java 中精准删除 PDF 文档中的指定段落》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《如何使用 iText 7 在 Java 中精准删除 PDF 文档中的指定段落》有用，将其分享出去将是对创作者最好的鼓励。

在Java项目中处理PDF文档时，经常需要删除文档内的特定段落，iText 7作为成熟的PDF操作库，提供了完善的文档解析和修改能力，能够实现精准的段落删除操作。

环境准备

首先需要在项目中引入iText 7的依赖，如果使用Maven构建项目，在pom.xml中添加以下依赖配置：

<dependency>
    <groupId>com.itextpdf</groupId>
    <artifactId>itext7-core</artifactId>
    <version>7.2.5</version>
</dependency>

核心实现思路

精准删除PDF段落的核心逻辑分为三步：

读取目标PDF文档，解析文档中的所有段落内容，记录每个段落的文本和对应的页面位置信息
根据预设的匹配规则，筛选出需要删除的目标段落
通过iText 7的文档修改能力，移除目标段落对应的内容区域

关键API说明

文档解析相关

使用PdfDocument类加载PDF文档，PdfPage类获取页面内容，TextExtractionStrategy接口的实现类可以提取页面中的文本内容，同时能够获取每个文本块的位置坐标。

内容删除相关

iText 7中没有直接删除段落的API，需要通过PdfCanvas类对目标区域进行覆盖，或者重新构建不包含目标段落的文档内容来实现删除效果。

完整实现代码

以下示例实现了删除PDF中包含指定关键词的段落的功能：

import com.itextpdf.kernel.pdf.*;
import com.itextpdf.kernel.pdf.canvas.PdfCanvas;
import com.itextpdf.kernel.pdf.canvas.PdfCanvasConstants;
import com.itextpdf.kernel.pdf.xobject.PdfFormXObject;
import com.itextpdf.layout.Document;
import com.itextpdf.layout.element.Paragraph;
import com.itextpdf.layout.property.TextAlignment;
import com.itextpdf.text.pdf.parser.*;

import java.io.File;
import java.util.ArrayList;
import java.util.List;

public class PdfParagraphDeleter {
    public static void main(String[] args) throws Exception {
        // 源PDF路径
        String sourcePath = "source.pdf";
        // 输出PDF路径
        String targetPath = "target.pdf";
        // 需要删除的段落包含的关键词
        String targetKeyword = "待删除段落关键词";
        
        deleteParagraphByKeyword(sourcePath, targetPath, targetKeyword);
        System.out.println("段落删除完成");
    }

    /**
     * 删除PDF中包含指定关键词的段落
     * @param sourcePath 源PDF路径
     * @param targetPath 输出PDF路径
     * @param keyword 目标段落关键词
     */
    public static void deleteParagraphByKeyword(String sourcePath, String targetPath, String keyword) throws Exception {
        // 加载源PDF
        PdfDocument pdfDoc = new PdfDocument(new PdfReader(sourcePath), new PdfWriter(targetPath));
        Document document = new Document(pdfDoc);
        
        // 存储需要删除的段落位置信息
        List<ParagraphPosition> targetPositions = new ArrayList<>();
        
        // 遍历所有页面，提取段落位置
        for (int i = 1; i <= pdfDoc.getNumberOfPages(); i++) {
            PdfPage page = pdfDoc.getPage(i);
            // 使用文本提取策略获取页面文本和位置
            TextExtractionStrategy strategy = new LocationTextExtractionStrategy();
            String pageText = PdfTextExtractor.getTextFromPage(page, strategy);
            
            // 简单段落匹配逻辑，实际可根据需求调整
            if (pageText.contains(keyword)) {
                // 这里简化位置获取逻辑，实际可通过解析TextRenderInfo获取精确坐标
                // 假设匹配到的内容占满当前页面，实际需根据段落的实际位置计算
                float x = 0;
                float y = 0;
                float width = page.getPageSize().getWidth();
                float height = page.getPageSize().getHeight();
                targetPositions.add(new ParagraphPosition(i, x, y, width, height));
            }
        }
        
        // 处理每个需要删除的段落
        for (ParagraphPosition pos : targetPositions) {
            PdfPage page = pdfDoc.getPage(pos.pageNum);
            PdfCanvas canvas = new PdfCanvas(page);
            // 设置填充色为白色，覆盖目标区域
            canvas.setFillColorRgb(255, 255, 255);
            // 绘制白色矩形覆盖段落区域
            canvas.rectangle(pos.x, pos.y, pos.width, pos.height);
            canvas.fill();
        }
        
        document.close();
        pdfDoc.close();
    }

    /**
     * 段落位置信息存储类
     */
    static class ParagraphPosition {
        int pageNum;
        float x;
        float y;
        float width;
        float height;

        public ParagraphPosition(int pageNum, float x, float y, float width, float height) {
            this.pageNum = pageNum;
            this.x = x;
            this.y = y;
            this.width = width;
            this.height = height;
        }
    }
}

注意事项

上述示例中的段落位置匹配逻辑较为简单，实际场景中如果需要精准匹配段落，需要解析TextRenderInfo获取每个文本块的具体坐标，判断文本是否属于同一个段落
覆盖方式删除段落会保留原文档的段落占位空间，如果需要完全移除段落并调整后续内容布局，需要重新构建PDF文档内容
操作前建议备份原始PDF文档，避免误操作导致内容丢失
iText 7的AGPL版本要求开源项目使用，如果是商业项目需要购买对应的商业授权

iText_7 Java PDF 段落删除修改时间：2026-06-25 22:57:40

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。