Qomhra: A Bilingual Irish-English Large Language Model
一、文章主要内容总结本文介绍了双语(爱尔兰语-英语)大语言模型Qomhrá的开发过程、核心实验及成果,聚焦低资源语言(爱尔兰语)的LLM构建难题,提出了涵盖双语持续预训练(CPT)、指令微调、人类偏好对齐的完整流程:背景与动机:爱尔兰语作为官方语言,在语言技术领域滞后于其他欧洲语言,缺乏高质量标注数据和成熟LLM。现有研究(如gaBERT、UCCIX)未覆盖指令微调与偏好对齐环节,无法直接用于聊天机器人开发。核心方法:预训练:基于Qwen-3-8B模型,混合爱尔兰语(含UCCIX开源数据、国家语料库等)和英语(维基百科数据)语料进行双语CPT,避免灾难性遗忘;指令微调:通过评估6个闭源LLM的爱尔兰语生成能力,选定Gemini-2.5-Pro翻译Dolly V2数据集,构建3万条双语平行指令数据集,采用LoRA进行微调;人类偏好对齐:利用Gemini-2.5-Pro翻译LIMA数据集,生成1千条含"可接受/不可接受"响应的偏好数据集,验证其与爱尔兰语母语者判断的一致性。实验结果:预训练后,Qomhrá在爱尔兰语任务上较基线提升最高29%,英语任务提升44%,未出现显著灾难性遗忘;指令微调后,模型在翻译、世界知识等开放式任务上性能显著改善,响应长度更合理;Gemini-2.5-Pro生成的偏好数据与母语者判断一致性达98.9%(Cohen’s κ=0.