一、安装Anaconda1.安装链接清华源下载2.打开Anaconda Powershell Prompt(miniconda3)输入conda config --set show_channel_urls yes显示配置文件(这一步就是静态的不会有任何回复)3.在C盘用户-用户名的文件夹中找到.condarc文件并用编辑器打开参考路径C:\Users\YourUserName\.condarc3.将文件夹内容替换为以下内容并保存channels: - defaults show_channel_urls: true default_channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/r - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/msys2 custom_channels: conda-forge: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud pytorch: https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud4.在Anaconda Powershell Prompt(miniconda3)中输入conda clean -i二、配置相关环境1.创建新环境打开Anaconda Powershell Prompt(miniconda3)输入以下命令创建环境推荐python版本3.10conda create -n marker python3.10其中marker为环境名称替换为自己需要的名称创建完成后激活环境conda activate marker替换pip源安装需要依赖pip在Anaconda Powershell Prompt(miniconda3)下激活环境后进行通过以下命令替换为清华源pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple然后再尝试安装pip install surya_ocr scikit-learn texify pdftext rapidfuzzpip install surya_ocr pip install scikit-learn pip install texify pip install pdftext pip install rapidfuzz这里先要安装pytorch没有安装的话在安装surya_ocr时会自动安装。因为本次安装使用cpu进行文档转换而不是gpu所以直接用pip安装surya_ocr有NVIDIA显卡先自行在新环境配置好cuda和pytorch再安装依赖。这里别关窗口!下面的安装步骤还在这个窗口里进行三、下载marker和模型原文教的是一步步来有点点麻烦需要的可以自取原文链接https://blog.csdn.net/weixin_44772676/article/details/142170216本文使用的方法是1.先设置环境变量让 huggingface 走镜像站$env:HF_ENDPOINT https://hf-mirror.com2.安装 huggingface_hubpip install -U huggingface_hub在执行这一步之前要用pip list检查列表中是否有surya-ocrtexifypdftextrapidfuzzmarker-pdf#如果之前的依赖也没装好重新一起装 pip install surya_ocr scikit-learn texify pdftext rapidfuzz marker-pdf -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn3.用命令下载所有模型方法1huggingface-cli download --resume-download vikp/surya_det3 --local-dir C:\Users\ZhangMeng\.cache\huggingface\hub\models--vikp--surya_det3huggingface-cli download --resume-download vikp/surya_layout3 --local-dir C:\Users\ZhangMeng\.cache\huggingface\hub\models--vikp--surya_layout3huggingface-cli download --resume-download vikp/surya_order --local-dir C:\Users\ZhangMeng\.cache\huggingface\hub\models--vikp--surya_orderhuggingface-cli download --resume-download vikp/texify --local-dir C:\Users\ZhangMeng\.cache\huggingface\hub\models--vikp--texifyhuggingface-cli download --resume-download vikp/pdf_postprocessor_t5 --local-dir C:\Users\ZhangMeng\.cache\huggingface\hub\models--vikp--pdf_postprocessor_t5huggingface-cli download --resume-download vikp/surya_rec2 --local-dir C:\Users\ZhangMeng\.cache\huggingface\hub\models--vikp--surya_rec2方法2marker_single --help四、使用方法1.再进入conda则需先激活marker环境conda activate marker2.然后设置镜像$env:HF_ENDPOINT https://hf-mirror.com3.确认进入marker环境后执行marker_single C:\你的PDF文件路径\example.pdf --output_dir C:\输出文件夹路径需求命令转换单个 PDFmarker_single 输入.pdf --output_dir 输出文件夹批量转换文件夹marker 输入文件夹 --output_dir 输出文件夹禁用 OCR纯文本 PDFmarker_single 输入.pdf --output_dir 输出文件夹 --disable_ocr输出 HTML 格式marker_single 输入.pdf --output_dir 输出文件夹 --output_format html只转换前5页marker_single 输入.pdf --output_dir 输出文件夹 --page_range 0-4但是现在的速度真的好慢好消息是不使用科学上网也能进行....今天还要再研究下要怎么才能提升下速度......