NLLB-Seed数据集详解39种语言的机器翻译训练黄金资源【免费下载链接】floresFacebook Low Resource (FLoRes) MT Benchmark项目地址: https://gitcode.com/gh_mirrors/fl/floresNLLB-Seed数据集是由Meta AI推出的高质量机器翻译训练资源包含39种语言的专业翻译句子旨在为低资源语言的机器翻译模型提供关键训练数据支持。作为No Language Left Behind计划的重要组成部分该数据集通过覆盖维基百科核心主题的平行语料有效推动了多语言翻译模型的发展。图NLLB项目宣传图展示了通过机器翻译促进包容性的核心愿景一、NLLB-Seed数据集核心价值NLLB-Seed数据集的独特之处在于其专业翻译质量和多语言覆盖能力。数据来源于维基百科每个维基百科都应有的文章列表涵盖不同知识领域和人类活动主题包含约六千个句子所有内容均经过专业翻译处理。与用于模型评估的FLORES-200不同NLLB-Seed专注于模型训练场景因此未经过FLORES-200那样严格的人工质量保证流程但仍保持了较高的翻译准确性和领域代表性。这使得它成为训练多语言翻译模型特别是低资源语言模型的理想选择。二、39种语言完整列表及代码NLLB-Seed支持39种语言包括多种罕见和低资源语言部分语言提供了不同书写系统的版本语言FLORES-200代码语言FLORES-200代码亚齐语阿拉伯文ace_Arab弗里乌利语fur_Latn亚齐语拉丁文ace_Latn尼日利亚富拉语fuv_Latn摩洛哥阿拉伯语ary_Arab瓜拉尼语grn_Latn埃及阿拉伯语arz_Arab恰蒂斯加尔语hne_Deva班巴拉语bam_Latn克什米尔语阿拉伯文kas_Arab巴厘语ban_Latn克什米尔语天城文kas_Deva博杰普尔语bho_Deva中卡努里语阿拉伯文knc_Arab班贾尔语阿拉伯文bjn_Arab中卡努里语拉丁文knc_Latn班贾尔语拉丁文bjn_Latn利古里亚语lij_Latn布吉语bug_Latn林堡语lim_Latn克里米亚鞑靼语crh_Latn伦巴第语lmo_Latn西南丁卡语dik_Latn拉特加莱语ltg_Latn宗卡语dzo_Tibt马加希语mag_Deva完整语言列表可查看项目文件nllb_seed/README.md三、数据集下载与使用指南3.1 最新版本获取⚠️注意当前仓库不再更新建议通过以下渠道获取最新版本Open Language Data Initiative仓库OLD Initiative官方网站3.2 原始版本下载如需获取原始版本数据集可通过以下链接下载 原始NLLB-Seed数据集3.3 项目克隆方法若需完整获取项目资源可通过以下命令克隆仓库git clone https://gitcode.com/gh_mirrors/fl/flores四、数据集许可与引用规范NLLB-Seed数据集采用CC-BY-SA 4.0许可协议允许在遵循许可条款的前提下自由使用、修改和分发。使用该数据集进行研究或开发时请引用以下论文article{nllb2022, author {NLLB Team, Marta R. Costa-jussà, James Cross, Onur Çelebi, Maha Elbayad, Kenneth Heafield, Kevin Heffernan, Elahe Kalbassi, Janice Lam, Daniel Licht, Jean Maillard, Anna Sun, Skyler Wang, Guillaume Wenzek, Al Youngblood, Bapi Akula, Loic Barrault, Gabriel Mejia Gonzalez, Prangthip Hansanti, John Hoffman, Semarley Jarrett, Kaushik Ram Sadagopan, Dirk Rowe, Shannon Spruit, Chau Tran, Pierre Andrews, Necip Fazil Ayan, Shruti Bhosale, Sergey Edunov, Angela Fan, Cynthia Gao, Vedanuj Goswami, Francisco Guzmán, Philipp Koehn, Alexandre Mourachko, Christophe Ropers, Safiyyah Saleem, Holger Schwenk, Jeff Wang}, title {No Language Left Behind: Scaling Human-Centered Machine Translation}, year {2022} }完整引用信息可参考项目根目录下的README.md文件。五、NLLB-Seed与相关资源NLLB-Seed是FLORES项目生态的重要组成部分该生态还包括FLORES-200包含200种语言的评估基准适合翻译模型性能评估NLLB-MD多领域翻译数据集支持更广泛应用场景的模型训练Toxicity-200多语言毒性检测数据集用于评估翻译中的毒性问题这些资源共同构成了全面的多语言机器翻译研究框架为开发者和研究者提供了从训练到评估的完整工具链。通过NLLB-Seed数据集开发者可以显著提升低资源语言翻译模型的性能推动不让任何一种语言掉队的目标实现。无论是学术研究还是商业应用这个数据集都为构建更具包容性的机器翻译系统提供了坚实基础。【免费下载链接】floresFacebook Low Resource (FLoRes) MT Benchmark项目地址: https://gitcode.com/gh_mirrors/fl/flores创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考