この記事について pysparkのデータハンドリングでよく使うものをスニペット的にまとめていく。随時追記中。 勉強しながら書いているので網羅的でないのはご容赦を。 Databricks上での実行、sparkは2.3.0以降, pythonは3.6以降を利用することを想定。 既存データからDataFrameの作成 # csvk形式1(spark DataFrameから書き出されたデータなど、データが複数にまたがっている場合) df = spark.read.csv("s3://my-backet/my-data/*.csv") # csv形式1(単一のファイルの場合。そもそもあまりない状況だと思うが…。状況にもよるが後にrepartion()実行を推奨) df = spark.read.csv("s3://my-backet/my-data/data.csv") # parquet形式 df