ablog

不器用で落着きのない技術者のメモ

2023-05-01から1ヶ月間の記事一覧

parquet-cli で Parquet ファイルを読む

parquet-tools は deprecated になっているらしく、parquet-cli をインストールして Parquet ファイルを読んでみた。 あと関連記事を調べると parquet-tools も紹介されていたりするけど,現時点では使えなくなっている $ brew install parquet-tools Error:…

Parquet はファイルでカラムの型を持っているため、Glue カタログだけ変更しても型を変えることはできない

S3 にある Parquet ファイルを Glue の Crawler でクロールしてテーブルを作成し、文字列型のカラムを数値型に変更するとエラーになるという当たりまり前(Parquet は項目定義に型を持っているバイナリファイルのため)のことを検証した。型を変えたい場合は…

Spark on EMR から Glue カタログにアクセスできない

事象 Spark on EMR で Glue カタログのデータベース名を表示しようとすると、"because no identity-based policy allows the glue:GetDatabase action" で AccessDeniedException が発生する。 $ pyspark >>> from pyspark.sql import SparkSession >>> spar…

Spark で "Possibly unquoted identifier ... detected. Please consider quoting it with back-quotes as" と怒られる

事象 Spark SQL で Glue カタログのデータベース名("_"や"-"を含む)を指定すると、"Possibly unquoted identifier ... detected. Please consider quoting it with back-quotes as" と怒られる。 $ pyspark >>> from pyspark.sql import SparkSession >>> …

クロスアカウントの s3 cp で "An error occurred (AccessDenied) when calling the GetObjectTagging operation: Access Denied"

AWS

事象 AWS CLI v2 でクロスアカウントでaws s3 cp を実行すると "An error occurred (AccessDenied) when calling the GetObjectTagging operation" で失敗する。 AWS CLI は v2 % aws --version aws-cli/2.5.8 Python/3.9.11 Darwin/21.6.0 exe/x86_64 promp…

AWS

* AWS Open Data の New York City Taxi のデータを自アカウントの S3 バケットにコピーする。 S3 バケット作成 $ aws s3 mb s3://nyc-tlc-az/ --region us-east-1 ファイルコピー $ aws s3 cp --recursive "s3://nyc-tlc/trip data/" "s3://nyc-tlc-az/trip…

Amazon Redshift でテーブルの列のデフォルト値を指定する

AWS

Amazon Redshift で列のデフォルト値を指定する。 dev awsuser 20230517_17:43:39 =# create table test_default_col( name varchar(10), updated timestamp DEFAULT sysdate ); CREATE TABLE Time: 632.178 ms dev awsuser 20230517_17:43:55 =# insert int…

Amazon Aurora の手動スナップショットの課金について

まとめ TotalBackupStorageBilled(保持期限内の自動スナップショットの累積サイズ) + SnapshotStorageUsed(保持期限外の手動スナップショット) がクラスターのストレージ使用量(VolumeBytesUsed)を超える分が課金される。 例えば 現在のストレージ使用…

Amazon Redshift RA3 の手動スナップショットのコストについて

AWS

Amazon Redshift RA3 の手動スナップショットの料金について 自動スナップショットは、 無料、最大35日間保持できる。 デフォルトで8時間ごとか、1ノードあたり 5GB 変更されると自動でスナップショットが作成される。 自動、手動ともに前回からの増分のみス…

Aurora の IO サイズ

AWS

Read は MySQL が 16KB、PostgreSQL が 8KB、Write は MySQL、PostgreSQL とも 4KB。 Each database page is 16 KB in Aurora MySQL-Compatible Edition and 8 KB in Aurora PostgreSQL-Compatible Edition.Aurora was designed to eliminate unnecessary I/…