Spark SQL CACHE TABLE 详解-尧图建网站

Spark SQL CACHE TABLE 详解一、语法-- 1. 缓存已存在的表/视图CACHETABLEtable_name;-- 2. 缓存查询结果为临时表CACHETABLEtable_nameASSELECT...;-- 3. 懒加载首次查询时才缓存CACHE LAZYTABLEtable_nameASSELECT...;二、缓存原理┌─────────────────────────────────────────────────────────┐ │ SparkSession │ │ ┌─────────────────────────────────────────────────┐ │ │ │ CacheManager │ │ │ │ ┌─────────┐ ┌─────────┐ ┌─────────┐ │ │ │ │ │ Table A │ │ Table B │ │ Table C │ │ │ │ │ │ (缓存) │ │ (缓存) │ │ (缓存) │ │ │ │ │ └─────────┘ └─────────┘ └─────────┘ │ │ │ └─────────────────────────────────────────────────┘ │ │ ↓ │ │ ┌─────────────────────────────────────────────────┐ │ │ │ Executor 内存 │ │ │ │ BlockManager (实际存储缓存数据) │ │ │ └─────────────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────┘缓存流程执行查询生成 DataFrame将 DataFrame 注册到 Session 的 CacheManager触发 Action非 LAZY 模式立即触发将数据缓存到 Executor 内存三、缓存级别级别说明适用场景MEMORY_ONLY仅内存内存不足时分区丢失小数据集内存充足MEMORY_AND_DISK内存优先不足时溢写到磁盘Spark SQL 默认通用场景DISK_ONLY仅磁盘大数据集内存紧张MEMORY_ONLY_SER内存序列化节省空间内存紧张但 CPU 有余OFF_HEAP堆外内存需避免 GC 影响SQL 限制CACHE TABLE默认MEMORY_AND_DISK不可自定义。DataFrame API 可自定义df.persist(StorageLevel.MEMORY_ONLY)四、LAZY vs 非 LAZY-- 非懒加载立即执行查询并缓存CACHETABLEtmpASSELECT*FROMbig_tableWHEREdt2026-07-01;-- ↑ 执行计划立即触发数据加载到内存-- 懒加载仅记录缓存意向首次查询时才缓存CACHE LAZYTABLEtmpASSELECT*FROMbig_tableWHEREdt2026-07-01;-- ↑ 此时什么都不做SELECT*FROMtmp;-- 这里才真正缓存选择建议确定会用 →CACHE TABLE立即加载可能不用 →CACHE LAZY TABLE按需加载五、作用域与生命周期┌────────────────────────────────────────────────┐ │ Spark Application │ │ ┌──────────────┐ ┌──────────────┐ │ │ │ Session A │ │ Session B │ │ │ │ ┌──────────┐ │ │ ┌──────────┐ │ │ │ │ │ cache_t1 │ │ │ │ cache_t1 │ │ │ │ │ │ (独立) │ │ │ │ (独立) │ │ │ │ │ └──────────┘ │ │ └──────────┘ │ │ │ └──────────────┘ └──────────────┘ │ │ ↓ ↓ │ │ Session 关闭 Session 关闭 │ │ 缓存自动释放缓存自动释放 │ └────────────────────────────────────────────────┘特性说明作用域Session 级别不同 Session 隔离生命周期Session 存活期间有效释放时机Session 关闭 / UNCACHE TABLE / CLEAR CACHE跨 Session不共享同名表互不影响六、常用操作-- 1. 缓存表CACHETABLEtmpASSELECTwaybill_code,status,update_timeFROMapp.test;-- 2. 查看缓存状态DESCRIBEEXTENDEDtmp;-- 输出中查找: Is Cached: true-- 3. 解除单个缓存UNCACHETABLEtmp;-- 4. 清除所有缓存CLEAR CACHE;七、实际应用场景场景1维表重复关联-- 小维表被多次关联缓存避免重复扫描CACHETABLEdim_region;CACHETABLEdim_status;SELECTa.*,r.region_name,s.status_nameFROMfact_order aJOINdim_region rONa.region_idr.idJOINdim_status sONa.statuss.code;SELECTa.*,r.region_nameFROMfact_order_detail aJOINdim_region rONa.region_idr.id;场景2中间结果复用-- 中间结果被多次引用CACHETABLEtmp_filteredASSELECT*FROMbig_tableWHEREdt2026-07-01ANDstatusIN(1,31);-- 后续多次查询直接走内存SELECTCOUNT(*)FROMtmp_filteredWHEREstatus1;SELECTCOUNT(*)FROMtmp_filteredWHEREstatus31;SELECTwaybill_codeFROMtmp_filteredLIMIT100;场景3迭代计算-- 机器学习/图计算迭代场景CACHETABLEgraph_nodesASSELECT*FROMnodes;-- 多轮迭代读取同一份数据-- 第1轮SELECT/* BROADCAST(graph_nodes) */...FROMgraph_nodes;-- 第2轮SELECT/* BROADCAST(graph_nodes) */...FROMgraph_nodes;八、注意事项问题说明解决方案内存溢出缓存过多导致 OOM控制缓存数据量及时 UNCACHE数据过期源表更新后缓存未刷新手动 UNCACHE 后重新 CACHE占用 Executor 内存影响其他任务执行评估内存容量选择合适数据集小文件问题缓存表有小文件缓存前 REPARTITION重复缓存同一表多次 CACHE 无效Spark 会检查是否已缓存九、性能调优建议-- 1. 缓存前优化文件数CACHETABLEtmpASSELECT/* REPARTITION(100) */*FROMbig_table;-- 2. 只缓存需要的列CACHETABLEtmpASSELECTcol1,col2,col3FROMbig_table;-- 不要 SELECT *-- 3. 及时释放UNCACHETABLEtmp;-- 用完及时释放十、与 Hive Metastore 的区别对比项CACHE TABLECREATE TABLE存储位置Executor 内存HDFS/S3作用域Session 级别全局Metastore持久性Session 结束即消失永久保存跨 Session不可见所有 Session 可见同名冲突不同 Session 不冲突全局冲突十一、总结CACHE TABLE 内存缓存 Session 隔离默认级别 MEMORY_AND_DISK适用场景维表关联、中间结果复用、迭代计算核心原则够用即可用完释放

相关新闻

实验四 Java Swing图形用户界面

伪元素的妙用--单标签之美

伪元素实现换行，替代＜br＞换行标签

最新新闻

2026核心代码难题拆解：AI生成代码“本地稳跑、线上必崩”的隐性陷阱与根治方案

计算机Java毕设实战-基于 Web 的多终端传感健康数据记录系统的设计与实现 基于 Web 的人体健康传感监测管理系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】

塞尔达传说旷野之息存档编辑器：3分钟掌握游戏修改终极技巧

【毕业设计】基于 Web 的多传感器健康数据采集分析系统的设计与实现 基于 Web 的智能健康传感监督管控系统(源码+文档+远程调试，全bao定制等)

Java毕业设计-基于 SpringBoot 的医疗用品销售网站的设计与实现 基于 SpringBoot 的医疗器械药品销售管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等)

Java毕设选题推荐：基于 Web 的便携式传感器健康监测记录系统的设计与实现 基于 Web 的多维度健康传感数据管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】

日新闻

Selenium元素定位全解析：从八大方法到实战策略

BurpSuite Cluster Bomb模式深度避坑指南：从原理到实战的完整爆破策略

UnblockNeteaseMusic终极教程：3分钟解锁网易云音乐灰色歌曲的完整方案

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

计算机Java毕设实战-基于 Web 的多终端传感健康数据记录系统的设计与实现基于 Web 的人体健康传感监测管理系统【完整源码+LW+部署说明+演示视频，全bao一条龙等】

【毕业设计】基于 Web 的多传感器健康数据采集分析系统的设计与实现基于 Web 的智能健康传感监督管控系统(源码+文档+远程调试，全bao定制等)

Java毕业设计-基于 SpringBoot 的医疗用品销售网站的设计与实现基于 SpringBoot 的医疗器械药品销售管理系统(源码+LW+部署文档+全bao+远程调试+代码讲解等)

Java毕设选题推荐：基于 Web 的便携式传感器健康监测记录系统的设计与实现基于 Web 的多维度健康传感数据管理系统【附源码、mysql、文档、调试+代码讲解+全bao等】