pyspark(一)DataFrame结合jupyter入门
- 互联网
- 2025-07-21 18:00:23

DataFrame描述
DataFrame是一个二维表结构,包括行、列以及schema(元数据)
在 Spark 中,DataFrame 是一种以 RDD 为基础的分布式数据集,是一种特殊的RDD,是一个分布式的表,类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于,前者带有 schema 元信息,即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。
PySpark DataFrames是延迟求值的。它们是在RDD之上实现的。当Spark转换数据时,它不会立即计算转换,而是计划以后如何计算。当显式调用collect()等操作时,计算就会开始
代码展示 入口以及创建普通创建
普通创建+schema
根据pandas创建
打印信息数据展示
打印元数据信息
展示指定行
展示列名
describe汇总
collet
防止内存溢出,打印指定行行数
toPandas()
返回指定列
返回指定列实例
分配新的列
过滤器
分组计算示例 写入文件&读取文件&指定压缩格式csv
parquet
转换SparkSqlsql运行
UDF函数
pyspark(一)DataFrame结合jupyter入门由讯客互联互联网栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“pyspark(一)DataFrame结合jupyter入门”