エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
この記事について Sparkは大規模データを高速に処理できるメリットがある一方で、pandasに比べるとまだ... この記事について Sparkは大規模データを高速に処理できるメリットがある一方で、pandasに比べるとまだまだ柔軟な処理ができるとは言い難い現状です。そこで、Sparkに実装されていない関数については、UDFを利用することがありますが、パフォーマンスが決して良いとは言えない状況です。 そこで、spark 2.3.0から登場したpandas UDFを使うと、高速かつ柔軟にデータを処理することができます。UDFを含めた概要についてはこちらの記事も見てみてください。 pandas UDFの概要 pandasUDFの基本的な構成は pandas.Series もしくは pandas.DataFrame を受け付け、出力値として同様にpandas.Series もしくは pandas.DataFrame を返すような形で記述することができます。 pandasUDFには、 SCALER , GROU