pyspark（一）DataFrame结合jupyter入门

DataFrame描述

DataFrame是一个二维表结构，包括行、列以及schema（元数据）

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，是一种特殊的RDD，是一个分布式的表，类似于传统数据库中的二维表格。DataFrame 与 RDD 的主要区别在于，前者带有 schema 元信息，即 DataFrame 所表示的二维表数据集的每一列都带有名称和类型。

PySpark DataFrames是延迟求值的。它们是在RDD之上实现的。当Spark转换数据时，它不会立即计算转换，而是计划以后如何计算。当显式调用collect（）等操作时，计算就会开始

代码展示入口以及创建

普通创建

普通创建+schema

根据pandas创建

打印信息

数据展示

打印元数据信息

展示指定行

展示列名

describe汇总

collet

防止内存溢出，打印指定行行数

toPandas()

返回指定列

返回指定列实例

分配新的列

过滤器

分组计算示例

写入文件&读取文件&指定压缩格式

csv

parquet

转换SparkSql

sql运行

UDF函数

标签：

pyspark（一）DataFrame结合jupyter入门由讯客互联互联网栏目发布，感谢您对讯客互联的认可，以及对我们原创作品以及文章的青睐，非常欢迎各位朋友分享到个人网站或者朋友圈，但转载请说明文章出处“pyspark（一）DataFrame结合jupyter入门”