Spark任务优化分析
- 人工智能
- 2025-08-17 11:09:02

一、背景
首先需要掌握 Spark DAG、stage、task的相关概念
Spark的job、stage和task的机制论述 - 知乎
task数量和rdd 分区数相关
二、任务慢的原因分析
找到运行时间比较长的stage
再进去看里面的task
可以看到某个task 读取的数据量明显比其他task 较大。
如果是sql 任务进入到 SQL 页面看到 对应的执行卡在哪里,然后分析,如下图是hash id、actor_name,可以看到是group by 数据有倾斜。
group by 数据倾斜问题,可以参考hive group by 数据倾斜问题同样处理思路。
zhugezifang.blog.csdn.net/article/details/127447167
Spark任务优化分析由讯客互联人工智能栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“Spark任务优化分析”
上一篇
cesium地图蒙版遮罩效果
下一篇
GitHub基础