办公自动化工具箱 —— 模块功能说明文档本工具集由Excel、文件工具、OCR、PDF、PPT、Word六大功能模块组成旨在帮助用户高效完成各类文档处理、数据提取、文件管理等日常工作。各模块独立运行支持批量操作内置进度条和日志输出操作简单直观。一、Excel 模块功能概述提供对 Excel 文件的常用批处理操作支持跨文件、跨工作表的数据处理。功能列表功能按钮功能说明操作步骤合并工作表将多个 Excel 文件中选定的工作表合并为一个新的 Excel 文件跨文件。① 点击按钮选择多个 Excel 文件② 在对话框中勾选需要合并的工作表可来自不同文件③ 指定保存路径开始合并。拆分工作表根据某一列的值将单个 Excel 文件拆分为多个文件每个值单独生成一个文件。① 选择要拆分的 Excel 文件② 选择拆分依据列③ 选择输出文件夹开始拆分。清洗数据删除重复行和全空行。① 选择 Excel 文件② 指定保存路径③ 自动完成清洗。文件检索在指定目录下递归搜索所有 Excel 文件查找是否包含指定关键词支持正则表达式自动降级。① 选择搜索目录② 在弹出的对话框中输入关键词可选择是否使用正则③ 结果列出所有匹配的文件。缺失值处理对缺失值进行删除或填充均值/中位数/众数/自定义值可针对行或列。① 选择 Excel 文件② 在弹出的对话框中选择操作类型删除或填充、方向行/列、填充方法等③ 指定保存路径开始处理。重命名工作表批量修改多个 Excel 文件中的工作表名称支持查找替换、加前缀、加后缀、自定义规则可引用原名称和序号。① 选择多个 Excel 文件② 选择重命名模式并填写相应参数③ 选择输出文件夹执行重命名。列操作批量删除或保留指定的列跨文件可针对所有工作表或仅第一个。① 选择多个 Excel 文件② 选择操作类型删除列/保留列③ 输入列名逗号分隔④ 选择是否处理所有工作表⑤ 指定输出文件夹开始操作。查找替换批量查找并替换单元格内容支持正则表达式跨文件可针对所有工作表或仅第一个。① 选择多个 Excel 文件② 输入查找内容和替换内容③ 选择是否使用正则④ 选择是否处理所有工作表⑤ 指定输出文件夹执行替换。二、Word 模块功能概述批量处理 Word 文档支持.docx和.doc包括表格提取、内容删除/插入、文档合并、转 PDF、图片提取、内容检索。重要依赖读取.doc文件需要Microsoft Word和pywin32否则会跳过.doc文件。转换 Word 为 PDF 需要LibreOffice程序会自动检测并提示。功能列表功能按钮功能说明操作步骤提取表格数据提取多个 Word 文档中的表格数据可选择每个表格单独导出为 Excel或合并所有表格到一个 Excel 文件。① 选择多个 Word 文件② 选择是否合并所有表格③ 选择输出文件夹④ 开始提取。删除指定内容根据关键词删除包含该内容的段落或表格行支持正则表达式。① 选择多个 Word 文件② 输入关键词③ 选择是否使用正则④ 选择输出文件夹⑤ 开始删除。插入内容在文档开头或结尾插入段落文本或图片。① 选择多个 Word 文件② 选择插入类型段落/图片③ 输入内容或选择图片④ 选择插入位置开头/结尾⑤ 选择输出文件夹⑥ 开始插入。合并多个Word将多个 Word 文档按顺序合并为一个保留原格式和图片。① 按顺序选择多个 Word 文件② 指定保存路径③ 开始合并。转PDF将 Word 文档转换为 PDF需安装 LibreOffice。① 选择多个 Word 文件② 选择输出文件夹③ 开始转换使用 LibreOffice 后台转换。提取图片提取 Word 文档中的所有内联图片保存为原始格式。① 选择多个 Word 文件② 选择输出文件夹③ 开始提取。文件检索递归搜索指定目录下所有 Word 文件.docx和.doc查找内容是否包含关键词支持正则表达式实时输出匹配的文件路径。① 选择搜索目录② 输入关键词并选择是否使用正则③ 开始搜索结果在日志中列出。三、PPT 模块功能概述批量处理 PowerPoint 文件支持.pptx和.ppt包括文本替换、文字提取、图片提取、格式转换、合并、添加元素等。重要依赖处理.ppt旧格式及转图片、合并、转PDF等功能需要Microsoft OfficePowerPoint和pywin32库。如果未安装 Office相关按钮会变为灰色并提示。功能列表功能按钮功能说明操作步骤批量替换文本跨文件批量查找并替换幻灯片中的文本支持正则表达式自动处理.ppt格式。① 选择多个 PPT 文件② 输入查找内容和替换内容③ 选择是否使用正则④ 选择输出文件夹开始替换。提取全部文字跨文件提取每个 PPT 中所有幻灯片、表格、形状中的文字导出为独立的 TXT 文件。① 选择多个 PPT② 选择输出文件夹③ 开始提取。PPT转图片跨文件将每页幻灯片导出为高清 PNG 图片需 Office win32com。① 选择多个 PPT② 选择输出文件夹③ 开始转换每个 PPT 生成一个子文件夹存放图片。转PDF跨文件将 PPT 另存为 PDF需 Office win32com。① 选择多个 PPT② 选择输出文件夹③ 开始转换。合并多个PPT按选择顺序将多个 PPT 合并为一个文件需 Office win32com。① 按顺序选择多个 PPT② 指定保存合并文件的路径③ 开始合并。添加页眉/Logo跨文件在所有幻灯片右上角统一添加文字页眉或 Logo 图片自动处理.ppt格式。① 选择多个 PPT② 选择添加类型文字或图片③ 输入内容或选择图片④ 选择输出文件夹开始添加。提取图片跨文件提取 PPT 中所有嵌入的图片支持.ppt和.pptx每个 PPT 生成一个子文件夹。① 选择多个 PPT② 选择输出文件夹③ 自动提取所有图片。文件检索在指定目录下递归搜索所有 PPT 文件包括.ppt和.pptx查找内容是否包含关键词支持正则表达式包含表格文字实时输出匹配的文件路径。① 选择搜索目录② 输入关键词并选择是否使用正则③ 开始搜索结果在日志中列出。四、PDF 模块功能概述提供 PDF 的合并、拆分、文本/表格提取、格式转换、加密解密、页面旋转、内容检索等综合操作支持跨文件批量处理。功能列表功能按钮功能说明操作步骤合并PDF将多个 PDF 文件合并为一个。① 选择多个 PDF② 指定保存路径③ 开始合并。按名称提取页从 Excel 读取名称列表在指定目录的所有 PDF 中搜索包含该名称的页面并将匹配页面导出为独立的 PDF 文件支持正则和 OCR。① 选择 Excel 文件含名称列② 选择 PDF 所在目录③ 选择输出目录④ 设置高级选项列名、正则、是否启用 OCR、是否只导出第一个匹配等⑤ 开始搜索和提取。拆分PDF按每 N 页一份或按指定页码范围如1-3,5,7-9拆分。① 选择要拆分的 PDF② 选择拆分方式并输入参数③ 选择输出文件夹④ 开始拆分。提取表格批量提取多个 PDF 中的表格数据每个 PDF 生成一个 Excel 文件每页表格独立 Sheet。① 选择多个 PDF② 选择输出文件夹③ 自动提取并生成 Excel。PDF转图片将多个 PDF 的每一页转换为高清 PNG 图片可设置 DPI。① 选择多个 PDF② 设置 DPI③ 选择输出文件夹④ 开始转换。提取图片提取多个 PDF 中的所有内嵌图片资源保存为原始格式。① 选择多个 PDF② 选择输出文件夹③ 自动提取所有图片。提取文本提取多个 PDF 的全部文本内容每个 PDF 生成一个 TXT 文件。① 选择多个 PDF② 选择输出文件夹③ 开始提取。图片转PDF将多张图片合并为一个 PDF自动适应 A4 尺寸保持清晰度可手动调整图片顺序。① 选择多张图片② 在弹出的对话框中可切换排序方式按文件名或手动拖拽调整③ 指定保存 PDF 路径④ 开始生成。加密/解密批量加密或解密 PDF需设置密码。① 选择多个 PDF② 选择操作加密/解密③ 输入密码④ 选择输出文件夹⑤ 开始处理。旋转页面批量旋转多个 PDF 的全部或指定页面90°/180°/270°。① 选择多个 PDF② 选择旋转角度③ 选择旋转范围所有页面或指定页码范围④ 选择输出文件夹⑤ 开始旋转。文件检索在指定目录下递归搜索所有 PDF查找内容是否包含关键词支持正则表达式自动识别文字型 PDF 和图片型 PDFOCR 识别并实时显示匹配的文件路径。① 选择搜索目录② 输入关键词并选择是否使用正则③ 开始搜索结果在日志中列出。五、文件工具模块功能概述提供文件与文件夹的批量管理、重命名、归类、搜索、去重等实用工具。功能列表功能按钮功能说明操作步骤批量创建文件夹从 Excel 读取名称列表或按序号批量生成文件夹。① 选择创建模式从Excel读取或按序号生成② 选择根目录③ 根据模式选择 Excel 文件和列名或设置前缀/起始序号/数量④ 开始创建。删除空文件夹递归删除指定目录下所有空文件夹。① 选择要清理的根目录② 确认后自动删除所有空文件夹。批量重命名支持替换、添加前缀/后缀、正则替换、序号重命名等多种模式可过滤文件类型。① 选择文件夹② 选择重命名模式并填写参数如查找替换内容、正则表达式等③ 输入文件通配符如*.txt④ 开始重命名自动处理重名冲突。按顺序重命名从 Excel 读取名称列表按文件夹中文件的当前顺序依次重命名。① 选择 Excel 文件并指定名称列② 选择目标文件夹③ 系统会校验文件数量与名称数量是否一致④ 开始执行重命名。提取文件名将文件夹内所有文件的名称含相对路径、大小、修改时间导出到 Excel。① 选择要提取的文件夹② 选择是否包含相对路径③ 指定保存的 Excel 文件④ 导出完成。磁盘空间分析扫描指定目录下各子文件夹的大小生成包含大小和占比的报告。① 选择要分析的根目录② 可选择保存为 Excel 报告③ 分析完成显示结果。批量创建文档批量生成空白 Excel、Word 或 PPT 文档。① 选择输出目录② 选择文档类型excel/word/ppt③ 设置基础名称和数量④ 开始创建。自动归类移动根据文件的修改日期或后缀自动创建子文件夹并将文件移动到对应目录。① 选择源文件夹② 选择目标根目录③ 选择归类依据修改日期或文件后缀④ 开始移动。极速搜索按文件名通配符、文件大小范围、修改日期范围快速搜索文件结果可导出 Excel。① 选择搜索根目录② 输入通配符如*.xlsx③ 设置大小和日期过滤可选④ 可选择保存搜索结果为 Excel⑤ 开始搜索。查找重复文件基于 MD5 哈希值扫描目录下重复的文件。① 选择要扫描的目录② 系统扫描所有文件并列出重复文件对。六、OCR 模块功能概述利用 PaddleOCR 引擎对图片或 PDF 进行文字识别、信息提取和检索。前置依赖需要安装paddlepaddle和paddleocr建议 CPU 版本。首次启动会自动加载模型请保持网络畅通。功能列表功能按钮功能说明操作步骤识别图片文字批量识别图片中的全部文字可选择保存为 TXT 文件。① 选择一张或多张图片② 选择是否保存为文本文件③ 开始识别结果在日志中显示或保存。识别发票信息批量识别增值税发票提取发票代码、号码、日期、金额、税额、价税合计、购买方/销售方名称等字段导出为 Excel。① 选择发票图片② 指定保存 Excel 的路径③ 开始识别完成后生成结构化数据。识别PDF表格批量识别扫描版 PDF将每页文字按表格结构提取并导出为 Excel每个 PDF 生成一个 Excel 文件每页一个 Sheet。① 选择一个或多个 PDF 文件② 指定保存 Excel 的路径③ 程序将逐页识别并自动判断行列结构导出表格数据。检索图片文字在图片或目录下所有图片中搜索指定关键词返回包含关键词的图片及文字所在位置坐标。① 选择检索模式选择文件或扫描目录② 输入关键词③ 程序识别并高亮显示匹配结果。识别身份证信息批量识别身份证正面提取姓名、性别、民族、出生日期、住址、公民身份号码导出为 Excel。① 选择身份证图片② 指定保存 Excel 路径③ 开始识别并导出。附录运行环境与依赖基础依赖Python 3.10PyQt5pandasopenpyxlpdfplumberPyPDF2PyMuPDF (fitz)python-docxpillow可选依赖按模块OCR 模块paddlepaddle,paddleocrPPT 模块转图片/合并/转PDFpywin32 Microsoft OfficePowerPointWord 模块读取.docpywin32 Microsoft WordWord 转 PDFLibreOffice可执行文件需在 PATH 中或自动检测PPT 提取文字/替换等python-pptx创建 PPT 文档python-pptx但模块中使用了pptx库已包含注意事项使用 PPT/Word 依赖 Office COM 的功能时请确保已安装完整版 Office非精简版且具有相应权限。所有批量操作均支持进度条显示和日志记录异常信息会输出在日志区域。