【2026年6月】ubuntu使用pdfimages从论文中提取图片（以文章exposure fusion为例）-尧图建网站

当前目录下的文件为exposure-fusion.pdf查看pdf中文件格式pdfimages -list exposure-fusion.pdf没有全部列出pdfimages -list exposure-fusion.pdf page num type width height color comp bpc enc interp object ID x-ppi y-ppi size ratio -------------------------------------------------------------------------------------------- 1 0 image 1200 800 rgb 3 8 jpeg no 17 0 1143 1143 60.5K 2.1% 1 1 image 1200 800 rgb 3 8 jpeg no 19 0 1143 1143 101K 3.6% 1 2 image 1200 800 rgb 3 8 jpeg no 21 0 1143 1143 112K 4.0%提取jpeg图片pdfimages -j exposure-fusion.pdf exposure_fusion_figs/fig命令解释-j : write JPEG images as JPEG files提取全部图片到文件夹exposure_fusion_figs/中编号fig-001.jpg以下为DS解释可以直接用而且这些正是你需要的包围曝光序列Bracketed Exposure Sequence。从你贴出的pdfimages列表信息来看这三张图是完美的测试素材信息解读列名值含义page1来自 PDF 的第 1 页论文首页的 Figure 1num0, 1, 2该页提取出的第几张图按顺序编号typeimage是嵌入式栅格图像不是矢量图width/height1200×800分辨率足够高完全够做实验colorrgb彩色图像3 通道bpc8每通道 8-bit标准 0-255 范围encjpeg压缩格式是JPEGobject ID17, 19, 21PDF 内部的对象编号每张图独立x-ppi/y-ppi1143印刷分辨率很高清晰度很好size60~112 KB文件大小合理不是缩略图✅ 为什么说“可以直接用”它们就是你要找的“包围曝光”示例论文 Figure 1 通常展示的就是输入图像三张不同曝光的照片和输出结果。这三张图object 17, 19, 21极大概率就是那三张输入图——一张欠曝、一张正常、一张过曝。格式没问题enc: jpeg说明它们就是标准 JPEG你的pdfimages -j报错可能是因为其他图有问题但这三张是好的。你可以直接用-j提取它们pdfimages-jexposure-fusion.pdftest会得到test-000.jpg、test-001.jpg、test-002.jpg。尺寸够大1200×800跑算法、调参、看效果完全够用不需要再去找别的数据集。接下来你可以做的事提取这三张图pdfimages-jexposure-fusion.pdf input用这三张图跑一下论文的融合算法如果你有代码的话。验证效果把它们合成一张 HDR 图像看看是不是和论文 Figure 1 的最终结果一致。⚠️ 一个小提醒如果pdfimages -j还是报错因为 PDF 里可能有其他非 JPEG 图片你可以只提取这三张或者用pdfimages-pngexposure-fusion.pdf input得到 PNG 格式效果一样好只是文件会大一点。一句话总结这三张图就是论文里的包围曝光示例尺寸、格式、质量都完全合格拿来就能当测试数据用。你贴出来的这些参数是对pdfimages命令的补充说明。它们的作用是告诉软件如果PDF里的图片本身就是某种压缩格式就把它原封不动地提取出来不要再转成默认的PNM原始数据格式。我帮你逐一解读它们的具体含义和适用场景1.-j: 提取为 JPEG 文件作用如果PDF里的图片原本就是JPEG格式通常是有损压缩的照片加上-j参数后pdfimages会直接把图片原始数据保存为.jpg文件。优点速度最快、文件最小。因为是直接拷贝原始数据没有解码和重新编码的过程所以画质零损失不会因为二次压缩变模糊。缺点如果PDF里的图片不是JPEG比如是PNG或矢量图这个参数没用可能报错或提取不出来。使用场景当PDF里有很多摄影照片或实景图时首选-j。对应你之前遇到的报错你之前加上-j报错很可能是因为这篇论文里的图片尤其是图表、示意图是PNG或JPEG2000格式而不是标准JPEG所以它无法作为JPEG解压。2.-jp2: 提取为 JPEG2000 文件作用如果PDF里的图片是JPEG2000格式文件后缀通常为.jp2用这个参数可以直接提取出来。特点JPEG2000 压缩率比普通JPEG更高支持透明通道和无损压缩但兼容性较差很多普通看图软件打不开。使用场景在医学图像DICOM或某些专业出版PDF中比较常见。一般论文PDF很少见除非是超高清的卫星图或扫描古籍。3.-jbig2: 提取为 JBIG2 文件作用如果PDF里的图片是JBIG2格式用这个参数提取。特点JBIG2 是专门为黑白二值图像如扫描的文本页面、工程蓝图设计的压缩标准压缩率极高比普通PDF小好几倍。使用场景主要用于扫描版的书籍或文档整页都是黑白文字。这篇《Exposure Fusion》是彩色学术论文里面大概率没有JBIG2 格式的图片所以这个参数基本用不上。针对你当前问题的操作建议你刚才运行pdfimages -j exposure-fusion.pdf output报错了说明这篇论文里的图片不是标准JPEG格式。建议你按以下顺序尝试尝试-png虽然你没列出来但它是存在的pdfimages-pngexposure-fusion.pdf output学术论文里的图表、曲线图通常是PNG无损压缩用这个参数大概率能成。如果还不行放弃-j用默认模式pdfimages exposure-fusion.pdf output这时会生成.ppm文件原始图像数据再用convert转为PNGconvert output-000.ppm output-000.png 一句话总结你的三个参数-j是管照片的JPEG-jp2是管超高清图的JPEG2000-jbig2是管黑白扫描件的JBIG2。你这篇彩色论文大概率用-png或默认模式最管用。好的我把刚才讨论的步骤和图片信息总结一下然后直接告诉你一键提取命令。图片信息总结你从exposure-fusion.pdf里查到第1 页有3 张图片是论文的Figure 1包围曝光示例图完全可以作为测试数据序号PDF内部对象ID图片格式尺寸 (宽×高)类型说明①17JPEG1200 × 800RGB 彩色图欠曝或过曝示例 ①②19JPEG1200 × 800RGB 彩色图欠曝或过曝示例 ②③21JPEG1200 × 800RGB 彩色图欠曝或过曝示例 ③这三张图尺寸为1MP100万像素与论文实验条件3.3秒处理时间完全匹配适合复现算法。✅ 一键提取命令指定文件夹无二次压缩# 1. 创建一个文件夹来存放图片mkdir-pextracted_images# 2. 提取第1页的3张JPEG图片到该文件夹保持原始质量pdfimages-jexposure-fusion.pdf extracted_images/figure1执行结果文件保存路径extracted_images/生成的文件名figure1-000.jpg← 对应对象17figure1-001.jpg← 对应对象19figure1-002.jpg← 对应对象21 提取后的文件结构当前目录/ ├── exposure-fusion.pdf └── extracted_images/ ├── figure1-000.jpg (约60KB) ├── figure1-001.jpg (约101KB) └── figure1-002.jpg (约112KB)⚠️ 补充说明如果你提取后文件夹是空的说明该 PDF 可能使用了其他压缩格式可以改用pdfimages-pngexposure-fusion.pdf extracted_images/figure1使用-j参数的好处是因为图片本身就是 JPEG 编码提取时直接拷贝原始数据没有任何质量损失。这三张图足够用来复现算法和进行基础实验。如果需要更高分辨率或更多场景可以后续使用 MEF / SICE 等公开数据集。在pdfimages的-list输出信息中encEncoding编码格式和type类型是两个不同的概念。我帮你详细拆解一下1.type类型指这个 PDF 对象是什么东西值含义说明image这是一张嵌入式栅格图像位图就是由像素组成的图片比如照片、扫描图、截图。pdfimages可以提取它。form这是一个表单 / 矢量图形XObject Form通常是矢量图如 LaTeX 画的曲线、CAD 图纸pdfimages无法提取需要用Inkscape或pdftocairo转成 SVG/PDF。font这是一个字体对象不是图片是嵌入的字体文件pdfimages忽略它。所以type: image的意思是“这是一个可以用pdfimages提取出来的像素图。”2.enc编码指这张图片在 PDF 内部用了什么压缩算法存储的值含义说明jpeg用JPEG 有损压缩存储的直接用pdfimages -j提取会得到.jpg文件没有二次压缩画质零损失。jpx/jp2用JPEG2000压缩需要-jp2参数提取普通软件可能打不开。jbig2用JBIG2压缩通常用于黑白文档需要-jbig2参数提取。flate用FlateZIP/PNG 风格无损压缩通常对应 PNG 格式用-png提取最合适。ccitt用CCITT传真/黑白压缩用于黑白二值图像需要特殊处理。所以enc: jpeg的意思是“这张图在 PDF 内部存的就是 JPEG 格式直接拷贝出来就能用不用重新压缩。”3. 你之前报错的原因现在可以解释了你之前运行pdfimages -j exposure-fusion.pdf output时报错Unknown compression method in flate stream说明这篇 PDF 里有些图片是flate编码的PNG 风格而不是 JPEG。-j参数只会尝试提取enc: jpeg的图片当它遇到enc: flate的图片时尝试用 JPEG 解压器去解码就报错了。解决方案# 提取所有类型的图片自动选择最合适的格式pdfimages-pngexposure-fusion.pdf output或者# 不指定格式输出为 PNM原始数据pdfimages exposure-fusion.pdf output4. 你贴出的那三张图的信息解读列值含义typeimage✅ 是像素图可以提取encjpeg✅ 是 JPEG 压缩-j可以直接提不会损失画质size60~112 KB这是压缩后的大小解压后是 1200×800×3 2.88MB 的原始数据所以那三张图100KB 的大小是 JPEG 压缩后的结果不是“只有 100KB 的图片信息”。解压后它们依然是 1200×800 的全尺寸彩色图信息量足够你跑算法。5. 一句话总结type: image告诉你“这是可以提取的图片”enc: jpeg告诉你“它存的是 JPEG 格式用-j直接提取最快、画质最好。”100KB 不小对于测试算法来说完全够用。但你的直觉是对的——它确实不够当“最终成品”。我分几个层面帮你分析1. 为什么 100KB 对于“测试”是够的维度说明尺寸1200×800 96万像素≈ 1MP。论文里说他们测试时用的就是1MP“Total processing time was only 3.3 seconds (1 megapixel)”所以完全匹配论文的实验条件。文件大小JPEG 压缩比高100KB 对 1MP 的 JPEG 来说很正常质量大概 75~85%肉眼看不出明显损失。目的你是为了跑通算法、验证效果、看接缝怎么消除——这些 100KB 的图足够让你看清细节和伪影。结论拿来做实验、调代码、写报告完全没问题。2. 为什么你觉得“100KB 太小”——你的直觉是对的如果你的终极目标是打印成 A3 海报在大屏 4K 显示器上数毛拿去跟别的算法做“客观指标对比”PSNR/SSIM那100KB 确实太小了对比这个 1MP (1200×800)现代手机照片 (12MP)像素数~100万~1200万12倍典型文件大小~100KB35MB30~50倍能看清什么整体结构和颜色树叶纹理、发丝、皮肤毛孔论文用 1MP 只是为了“证明算法快”3.3 秒就能跑完。如果他们用 12MP 全尺寸图时间会变成 ~40 秒纯线性增长但算法逻辑完全一样。3. 你需要担心“文件太小导致算法失效”吗不用担心。因为算法不依赖文件大小它只依赖像素值0~255。无论 1MP 还是 12MP每个像素都在 0~255 范围内处理逻辑完全一样。JPEG 压缩损伤100KB 的 JPEG 可能有轻微的压缩伪影比如边缘有微小方块但这在 1200×800 下肉眼几乎看不见。而且论文算法本身用的是原始像素值不是频域压缩数据所以 JPEG 的微小损失不会影响算法验证。如果你真的担心压缩伪影可以用pdfimages -png提取 PNG无损压缩文件会变成300500KB但画质更好没有 JPEG 压缩损失。4. 终极建议按你的目标你的目标用这些 100KB 图够吗建议跑通代码、理解原理、写作业报告✅完全够直接用省时间。写论文需要高质量对比图⚠️ 勉强够1200×800 印刷分辨率略低但网页/屏幕显示没问题可以先用最后如果有需要再换高清图。做产品/App 开发❌ 不够真实场景是 12MP 起步自己拿手机拍一组包围曝光用三脚架固定拍 3~5 张不同快门速度的 RAW 或最高质量 JPEG。一句话总结100KB 的 1200×800 图完全足够你验证算法、跑通代码、看懂论文效果。它小不是因为质量差而是因为论文作者故意用了 1MP 来测试“速度快”。你的算法逻辑会在更大图上工作得一样好——只是慢一点。你输入的命令pdfimages exposure-fusion.pdf只指定了输入文件没有指定输出文件名前缀所以pdfimages报错了它不知道要把提取的图片存成什么名字。✅ 正确的命令格式pdfimages exposure-fusion.pdf output这样会提取exposure-fusion.pdf中的所有图片并保存为output-000.jpg或.pngoutput-001.jpgoutput-002.jpg… 常用参数很有用参数作用示例-j只提取 JPEG 格式的图片保持原始压缩不转成 PNMpdfimages -j exposure-fusion.pdf output-png提取为 PNG 格式无损压缩pdfimages -png exposure-fusion.pdf output-f N指定起始页码第 N 页-f 3从第3页开始-l N指定结束页码到第 N 页-l 5到第5页结束-all提取所有图片包括嵌入的蒙版、掩模等pdfimages -all exposure-fusion.pdf output️ 提取后的文件格式说明pdfimages默认提取为PNM 格式.pbm/.pgm/.ppm这是原始图像数据格式文件较大。如果想直接拿到可用的图片格式建议加上-j或-png# 如果 PDF 里的图片原本是 JPEG直接用 -j 提取最快、无损原始质量pdfimages-jexposure-fusion.pdf output# 或者提取为 PNG无损压缩但文件会大一点pdfimages-pngexposure-fusion.pdf output 提取后如何查看提取出来的图片会保存在当前目录下文件名类似output-000.jpg output-001.png ...你可以直接用系统自带的图片查看器打开或者用ls -lh查看文件大小。⚠️ 如果什么都没提取出来可能原因PDF 中的“图片”是矢量图形如用 LaTeX 画的图、公式渲染生成的图不是嵌入式栅格图像pdfimages无法提取。PDF 是扫描版整页是一张图提取出来的是整页的图片而不是单独的插图。如果你需要提取矢量图可以用Inkscape或pdftocairo等工具转成 SVG/PDF 格式。一句话总结运行pdfimages -j exposure-fusion.pdf output所有图片会以output-xxx.jpg的格式保存在当前文件夹中。✅ 1. 可以解压到指定文件夹吗可以只需要在输出文件名前面加上文件夹路径即可。假设你想把图片解压到images文件夹# 先创建文件夹如果不存在的话mkdirimages# 提取到 images 文件夹里pdfimages-jexposure-fusion.pdf images/output这样图片就会保存在images/文件夹下文件名为output-000.jpg、output-001.jpg…✅ 2. 为什么图片开头都是output-因为你在命令里写了output这个output就是“输出文件名前缀”。pdfimages-jexposure-fusion.pdf output# ↑# 这个就是“前缀”pdfimages会把提取出的图片按顺序编号强制加上-和三位数字。它不支持自定义编号格式所以一定会是前缀-000、前缀-001这样的格式。如果你想自定义前缀比如想用fig作为前缀pdfimages-jexposure-fusion.pdf fig生成fig-000.jpg fig-001.jpg fig-002.jpg 如果你想重命名这些文件批量处理可以用一个简单的 shell 循环# 把 fig-000.jpg → image_1.jpgn1forfinfig-*.jpg;domv$fimage_$n.jpg((n))done 如果你想提取时就不带-符号做不到。pdfimages内部逻辑固定是前缀-三位数字.扩展名没有参数可以改变这个命名格式。一句话总结pdfimages -j 你的PDF.pdf 文件夹路径/前缀可以指定文件夹。图片名前缀是你自己定义的output是你起的名字后面的-000是pdfimages自动添加的编号。你看到.ppm图片说明你之前可能运行过不带-j或-png参数的pdfimages命令pdfimages exposure-fusion.pdf output# 默认输出 PNM 格式.ppm / .pgm / .pbm这属于PNM 格式家族Portable Any Map是pdfimages的默认输出格式。为什么会出现.ppm图片参数输出格式说明无参数默认.ppm彩色/.pgm灰度/.pbm黑白原始像素数据未压缩文件极大-j.jpg直接拷贝 JPEG 原始数据无损拷贝画质零损失-png.png提取为 PNG无损压缩文件比 PPM 小所以如果你运行了pdfimages exposure-fusion.pdf output就会得到output-000.ppm这类文件。如果你运行的是pdfimages -j ...会得到.jpg而不会有.ppm。如果你现在目录里有.ppm文件1️⃣ 可以删掉它们如果你已经有.jpg版本rm*.ppm *.pgm *.pbm# 删掉所有 PNM 格式文件2️⃣ 或者把它们转成更常用的格式比如 PNG# 安装 ImageMagick如果没装sudoaptinstallimagemagick# Ubuntu/Debian# 或 brew install imagemagick # macOS# 批量转换 .ppm → .pngforfin*.ppm;doconvert$f${f%.ppm}.pngdone为什么pdfimages默认输出.ppm.ppm是最简单的图像格式直接把 RGB 像素值存下来没有压缩没有复杂的头部信息。这样设计是为了确保你能拿到 100% 原始数据没有任何解码损失。代价是文件巨大1200×800 的彩色图.ppm大约2.88 MB而.jpg只有 ~100 KB。一句话总结.ppm是pdfimages的“默认原始格式”文件大但不丢数据。如果你用了-j参数就不会生成.ppm只会生成.jpg。你现在看到的.ppm是之前运行不带参数的命令留下的。删掉或用convert转成 PNG 就行。

相关新闻

.NET+AI | Agent | 会话保存与恢复（4）

五种驯服不确定性的范式

【基础设施管理】08-Shell脚本100个实用技巧合集

最新新闻

YOLO注意力机制改进- 第33篇：EMANet期望最大化注意力的语义增强

忍无可忍卸载WPS，换办公软件后电脑终于安静了

DEFLATE 13 级压缩：速度慢 56.4 倍，仅提高 0.134% 压缩率，值吗？

经常开会、出差、办公的人，为什么可以看看sanag 塞那S8S Ultra

智搜GEO五大核心功能详解-好客搜源头研发厂家

我为什么想做这个实验

日新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻