1珠海二手房数据分析【2026.6.29】
珠海二手房数据分析代码路径【gitee】1珠海二手房数据分析: 1珠海二手房数据分析一、项目描述通过对爬取的二手房数据进行进一步清洗处理。分析各维度的数据筛选对房价有显著影响的特征变量探索珠海二手房整体情况、价格情况和价格的影响因素建立房价预测模型并对假设情景进行模拟。二、提出问题探究珠海二手房单价、总价、数量和位置县区、镇之间的关系探究其它因素和单价的关系探究户型分布分析建筑年代情况使用机器学习模型建立回归分析模型进行价格预测。三、数据理解列名含义title标题,无需分析删除comm提取小区名称total_price提取总价unit_price提取单价no_room提取户型、室、厅、卫area提取面积orientations提取朝向floor提取楼层类型高中低year提取建造年份address位置维度过细删除county提取县区town提取镇tags标签无需分析直接删除broker中介经纪无需分析删除rate中介评分无需分析删除company中介公司无需分析删除整体分析思路业务理解 → 数据获取 → 数据清洗 → 探索性分析数据可视化探索 → 特征工程 → 建模评估 → 模拟预测 → 结论输出根据上述思路进行数据处理给出实现结果✅ 项目已全部完成根据您的要求和项目产出物来看这个珠海二手房数据分析项目已经完整地执行了全部阶段下面是详细介绍 项目概述本项目对珠海市约67,000 条二手房挂牌数据进行分析从业务理解到建模预测形成了一条完整的分析链路。 技术流程14 个步骤阶段脚本说明数据读取01_read_and_overview.py读入 CSV查看数据结构、缺失值EDA02_eda.py可视化探索分布/散点/相关矩阵数据清洗03_cleaning.py处理缺失值、异常值提取结构化字段特征工程04_feature_engineering.py编码、标准化、特征构建面积分箱/房龄等模型训练05_train_models.py线性回归 随机森林基线模型评估06_evaluate.pyR²/MAE/RMSE 评估残差图调优07_tune_rf.py随机搜索调优随机森林深度分析14_room_age_orient_analysis.py户型/年代/朝向专项分析情景模拟15_scenario_simulation.py预设/交互式房价预测业务报告08_business_report.py生成 Markdown 洞察报告PPT 导出10_export_presentation.py导出演示文稿误差分析11_error_stratified_analysis.py按区域/价格分层分析预测误差PPT 精炼12_refine_ppt.py微调版式交互仪表板13_error_interactive_dashboard.py生成 HTML 误差诊断页面 核心发现1. 区域分布香洲区为主力市场29,073套占43%横琴、斗门、金湾次之2. 户型分布3室是绝对主力户型超50%2室和4室次之面积越大单价呈下降趋势边际递减规律3. 建筑年代中位建造年份约2013年中位房龄13年较新房6-15年均价最高23,073元/㎡老房30年最低18,621元/㎡4. 价格影响因素特征重要性 Top 5总价经标准化— 最重要县区横琴、香洲等高价值区域面积室数房龄 模型表现模型R²MAE元/㎡RMSE元/㎡线性回归0.85872,476.633,708.53随机森林基线0.9911189.83932.41随机森林调优0.9885314.061,056.85随机森林模型表现优异预测误差仅约190-314 元/㎡可用于实际房价预估。 情景模拟示例情景面积区域房龄预测单价预测总价市中心老破小60㎡香洲25年22,055132.3万横琴新区豪宅140㎡横琴3年35,951503.3万斗门刚需三房95㎡斗门8年12,699120.6万 产出物清单✅ 清洗后数据集cleaned_full.csv✅ 训练/测试特征集features_train.csv/features_test.csv✅ 训练好的模型文件.joblib✅ 评估报告evaluation_report.md✅ 业务洞察报告business_insights.md✅ PPT 演示文稿business_insights_refined.pptx✅ 情景预测结果scenario_predictions.csv✅ 交互式误差诊断页面error_diagnostics.html✅ 各类可视化图表15 张总结项目从业务理解 → 数据清洗 → 探索分析 → 特征工程 → 建模评估 → 情景模拟 → 结论输出完整闭环均已实现所有分析和建模任务均已完成结果图片展示以下是项目生成的14 张图片的逐一介绍 EDA 探索性分析4 张1. dist_unit_price.png — 单价分布直方图展示珠海二手房**单价元/㎡**的整体分布形态。可以直观看到价格的集中区间、偏态程度以及是否有极端高/低价异常值。2. dist_total_price.png — 总价分布直方图展示二手房**总价万元**的分布情况反映市场上主流总价段在哪里。3. scatter_area_unitprice.png — 面积 vs 单价散点图横轴面积、纵轴单价每个点代表一套房随机采样10%。可以看出面积越大、单价越低的负相关趋势以及不同面积段的价格离散程度。4. corr_matrix.png — 数值特征相关性热力图展示总价、单价、面积、室数、建造年份、房龄等数值字段之间的皮尔逊相关系数。红色正相关蓝色负相关数值越接近 ±1 关系越强。5. box_unitprice_by_county_top10.png — Top10县区单价箱线图按县区分组的单价箱线图直观比较横琴、香洲、斗门、金湾等区域的单价水平、中位数和离散度。横琴和香洲通常明显高于其他区域。 模型评估3 张6. eval_rf_pred_vs_true.png — 真实值 vs 预测值散点图随机森林模型在测试集上的表现。横轴真实单价、纵轴预测单价点越贴近红色对角线yx说明预测越准。偏离对角线的点代表预测误差较大的样本。eval_rf_pred_vs_true_chinese.png7. eval_rf_residuals.png — 残差分布直方图残差 真实值 − 预测值。理想情况应呈以 0 为中心的正态分布代表模型无系统性偏差。偏左或偏右说明模型倾向于高估或低估。eval_rf_residuals_chinese.png8. feature_importance_top20.png — 特征重要性 Top20 条形图展示随机森林模型中对房价预测贡献最大的前 20 个特征。通常总价、面积、县区横琴/香洲排在前列帮助理解哪些因素真正驱动房价。另有中文字体版本 eval_rf_pred_vs_true_chinese.png 和 eval_rf_residuals_chinese.png 作为备用。 户型深度分析2 张9. room_type_analysis.png — 户型综合分析三合一三张子图并列左图室数分布柱状图3室最多超50%中图不同室数 vs 单价箱线图室数越多单价越低右图不同室数 vs 面积箱线图室数和面积正相关10. room_ting_wei_dist.png — 厅/卫分布两张子图分别展示厅数分布2厅最常见和卫数分布1-2卫为主。️ 建筑年代分析1 张11. building_age_analysis.png — 年代综合分析四合一四张子图左上建造年份分布直方图中位年份约2013年右上房龄分布直方图左下房龄 vs 单价散点图 红色趋势线房龄越大单价越低右下新房/较新/中等/老房四个年龄段的单价箱线图 朝向分析1 张12. orientation_analysis.png — 朝向分布与价格左图各朝向房源数量柱状图南向占据绝对主导右图不同朝向的单价箱线图可看出南北通透等朝向是否有溢价 总结一览图片所属阶段核心信息dist_unit_price.pngEDA单价整体分布dist_total_price.pngEDA总价整体分布scatter_area_unitprice.pngEDA面积与单价关系corr_matrix.pngEDA数值特征相关性box_unitprice_by_county_top10.pngEDA区域价格对比eval_rf_pred_vs_true.png评估预测准确度eval_rf_residuals.png评估误差分布feature_importance_top20.png评估特征重要性排名room_type_analysis.png深度分析户型-价格-面积关系room_ting_wei_dist.png深度分析厅卫分布building_age_analysis.png深度分析年代-价格四维分析orientation_analysis.png深度分析朝向-价格关系error分析html界面error_diagnostics.html — 交互式误差诊断仪表盘这个文件是一个可在浏览器中打开的交互式网页由 13_error_interactive_dashboard.py 脚本生成用于深入分析模型预测误差的来源和分布。 包含哪三部分内容模块内容交互方式误差统计表按县区展示样本量、MAE、RMSE可搜索、排序、分页DataTables真实值 vs 预测值散点图每个点代表一套房颜色区分县区悬停查看详情、缩放、拖拽残差分布直方图预测误差的整体分布形态查看偏差和离散程度县区 MAE 柱状图水平柱状图一眼看出哪个区误差最大悬停查看精确数值 你能用它做什么快速定位模型弱点区域从表格可以看到高新区 MAE 最高410 元/㎡高栏港区最低26 元/㎡说明模型对高新区房源预测不太准可能需要补充该区域特征检查预测偏差散点图越贴近对角线yx预测越准如果某个区域点的颜色明显偏离对角线说明该区域存在系统性偏差发现异常值直方图中远离 0 的长尾就是预测严重偏差的样本可以据此排查数据质量问题如挂牌价异常指导模型优化方向针对高误差区域横琴、高新区、香洲可以考虑引入更多地理特征如学区、商圈距离来改善预测