エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
確認したかったこと Parquet ファイルに対して Presto で select count(year) のように特定カラムのみ参... 確認したかったこと Parquet ファイルに対して Presto で select count(year) のように特定カラムのみ参照するとそのカラムのみをストレージから読んでいる。 select count(*) すると Parquet ファイルのフッターのメタデータ(Row group の num rows)のみをストレージから読んでいる。 検証シナリオ データセットは Amazon Customer Reviews Dataset を使用。 Presto から Parquet on HDFS、Athena から Parquet on S3 にクエリを発行してスキャンサイズ、実行時間、ブロックI/O量を確認する。 # クエリ 1 select count(*) from amazon_reviews_parquet 2 select count(year) from amazon_r