CGCNN数据集制作全攻略:CIF文件与id_prop.csv格式详解
CGCNN数据集制作全攻略CIF文件与id_prop.csv格式详解【免费下载链接】cgcnnCrystal graph convolutional neural networks for predicting material properties.项目地址: https://gitcode.com/gh_mirrors/cg/cgcnn想要使用CGCNNCrystal Graph Convolutional Neural Networks进行材料性质预测数据集准备是关键第一步 本文将为你详细解析CGCNN数据集的完整制作流程特别是CIF文件和id_prop.csv格式的规范要求。 CGCNN数据集结构总览CGCNN是一个强大的晶体图卷积神经网络工具专为预测材料性质而设计。要使用它你需要准备一个标准格式的数据集。数据集目录结构如下你的数据集目录/ ├── id_prop.csv # 核心属性文件 ├── atom_init.json # 原子初始化文件 ├── 1000041.cif # CIF晶体结构文件 ├── 1000050.cif # CIF晶体结构文件 └── ... # 更多CIF文件 id_prop.csv文件格式详解id_prop.csv是CGCNN数据集的核心配置文件它建立了晶体结构与目标属性之间的对应关系。基本格式要求这是一个简单的两列CSV文件没有任何表头1000041,1.0 1000050,2.0 1101051,3.0 1507756,4.0列说明列名数据类型说明第一列字符串或整数晶体唯一标识符ID第二列浮点数或整数目标属性值实际应用示例回归任务示例data/sample-regression/id_prop.csv1000041,1.0 1000050,2.0 1101051,3.0 1507756,4.0 7206075,5.0分类任务示例data/sample-classification/id_prop.csv1000041,1 1000050,0 1101051,1 1507756,0️ CIF文件格式解析CIFCrystallographic Information File是晶体学信息文件用于描述晶体结构。每个CIF文件对应一个晶体样本。CIF文件关键部分典型的CIF文件包含以下重要信息data_1000041 _cell_length_a 5.62 _cell_length_b 5.62 _cell_length_c 5.62 _cell_angle_alpha 90 _cell_angle_beta 90 _cell_angle_gamma 90 _chemical_formula_sum Cl Na _space_group_IT_number 225 loop_ _atom_site_label _atom_site_type_symbol _atom_site_fract_x _atom_site_fract_y _atom_site_fract_z Na1 Na 0.000 0.000 0.000 Cl1 Cl 0.500 0.500 0.500命名规范文件名必须与id_prop.csv中的ID完全一致使用.cif作为文件扩展名示例ID为1000041的晶体对应文件名为1000041.cif️ atom_init.json文件说明atom_init.json文件为每个元素提供初始化向量通常使用项目提供的默认文件即可。文件位置示例文件data/sample-regression/atom_init.json包含92种元素的特征向量对应原子序数1-92使用建议对于大多数应用直接使用项目提供的atom_init.json文件即可无需修改。 数据集制作完整流程步骤1收集晶体结构数据从Materials Project、COD等数据库下载CIF文件确保每个晶体有唯一的标识符步骤2准备属性数据整理每个晶体的目标属性如形成能、带隙等创建id_prop.csv文件步骤3组织文件结构创建数据集目录将所有CIF文件放入该目录复制atom_init.json文件到目录中将id_prop.csv放入目录步骤4验证数据集检查所有CIF文件能否被pymatgen正确读取验证id_prop.csv中每个ID都有对应的CIF文件确保文件命名一致 实用技巧与注意事项1. 数据集规模建议训练集至少100个样本可获得较好效果验证集建议占总数据10-20%测试集建议占总数据10-20%2. 常见问题解决问题找不到足够邻居构建图解决在data.py中调整radius参数默认8Å问题CIF文件读取失败解决确保CIF文件格式标准使用pymatgen验证3. 高级配置选项在CGCNN的CIFData类中可以调整以下参数参数默认值说明max_num_nbr12每个原子的最大邻居数radius8.0邻居搜索半径Ådmin0高斯距离最小值step0.2高斯距离步长 快速开始示例假设你已经准备好了数据集以下是使用CGCNN的简单步骤克隆仓库git clone https://gitcode.com/gh_mirrors/cg/cgcnn cd cgcnn准备环境conda create -n cgcnn python3 scikit-learn pytorch torchvision pymatgen -c pytorch -c conda-forge conda activate cgcnn训练模型python main.py --train-size 6 --val-size 2 --test-size 2 data/sample-regression 应用场景与扩展回归任务材料形成能预测弹性模量计算带隙预测分类任务金属/半导体分类晶体结构类型识别材料稳定性判断 相关资源官方文档cgcnn/data.py - 数据集加载实现示例数据data/sample-regression/ - 回归任务示例示例数据data/sample-classification/ - 分类任务示例✅ 总结掌握CGCNN数据集制作是成功应用该模型的关键。记住三个核心文件id_prop.csv、atom_init.json和*.cif文件。按照本文的指南你可以轻松准备自己的材料数据集开始材料性质预测的探索之旅无论你是材料科学研究者还是机器学习爱好者正确的数据集格式都是获得准确预测结果的基础。现在就开始准备你的第一个CGCNN数据集吧【免费下载链接】cgcnnCrystal graph convolutional neural networks for predicting material properties.项目地址: https://gitcode.com/gh_mirrors/cg/cgcnn创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考