SparkSession介绍

IT业界
2025-08-11 22:33:02

一、介绍

SparkSession是Spark 2.0中引入的新概念，它是Spark SQL、DataFrame和Dataset API的入口点，是Spark编程的统一API，也可看作是读取数据的统一入口；它将以前的SparkContext、SQLContext和HiveContext组合在一起，使得用户可以在一个统一的接口下使用Spark的所有功能。需要注意的是，SparkSession是一个重量级的对象，创建和销毁的代价较高，因此在项目中应该尽可能地重用同一个SparkSession对象。在I/O期间，在构建器中设置的配置项将自动同步到Spark和Hadoop。

二、如何使用

# 在项目中初始化SparkSession，可以按照以下步骤进行： # 1、导入必要的包： import org.apache.spark.sql.SparkSession # 2、创建SparkSession对象： val spark = SparkSession .builder # 使用builder()方法创建一个SparkSession.Builder对象，构建器将自动重用现有的SparkSession；如果不存在则会创建一个SparkSession .appName("xxx") .config("hive.exec.dynamic.partition", "true") # 设置分区 .config("hive.exec.dynamic.partition.mode", "nonstrict") # 设置hive是动态写入的方式 .config("spark.sql.broadcastTimeout", 3000) .config("spark.sql.sources.partitionOverwriteMode", "dynamic") # 设置hive动态写分区 .config("spark.checkpoint.dir", "/user/vc/projects_prod/checkpoint/data") # 设置checkpoint的路径 .enableHiveSupport() .getOrCreate() # 3、使用SparkSession对象进行数据操作： val df = spark.read.json("path/to/json/file") df.show()

三、sparkSession的配置参数参考 blog.csdn.net/u010569893/article/details/111356664

标签：

SparkSession介绍由讯客互联IT业界栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“SparkSession介绍”

上一篇
软件设计先进性之虚拟化技术的应用

下一篇
微软离Altman越近，离OpenAI就越远！