(1) Hadoop Distributed File System。Hadoop の分散ファイルシステム。 (2) High Density Fixed Service(Systems)。加入者系無線アクセ スシステムなどの稠密な状態で用いられる固定業務(のシステム)。IEEE 802.16 の用語。
PythonでHDFSにファイルアップロードする処理を実装したのでメモ。 単純な処理ならcurlで十分なのですが、色々やりたい時は便利そうです。 事前にKerberos認証済みの想定です。 ⬇️ まだ読めてないです😎 データウェブハウスツールキット―Web+データウェアハウスで最良のe‐ビジネス環境を構築 作者:キンボール,ラルフ,メルツ,リチャード メディア: 単行本 環境 やはりPythonのバージョンは3.7。 $ pip3 install pywebhdfs==0.4.1 requests-kerberos==0.12.0 最初にローカルでテストコードを実行しようとして、インストール出…
年に一度しか更新しないようなブログとなっていますが、とりあえず自分のために2024年の学びと振り返りをしていこうと思います。 2024年できたこと、学び トロントで転職: 昨年末のレイオフ後、テック冬の時代とも言われましたが、毎日leetcode, system design,筋トレを継続し、強く生きることができ、無事やりたいSoftware Engineerの仕事を見つけることができました。妻と周りのサポートに感謝。引き続きTech業界でSWEとして頑張ります。 レイオフ中はメンタルがどんそこで辛い日々でしたが、信じて頑張ってよかったです。チーム自体がなくなったので、マネジャーのせいでもチー…
Contributions to Apache Hive in 2024 2024年に取り組んだ分散処理OSSに対する貢献のまとめです。今年も引き続きHiveに関する活動が多く、Apache Iceberg関連のコントリビューションも増えたのが特徴かなと思います。
この記事は MicroAd Advent Calendar 2024 と Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2023 の25日目の記事です。 qiita.com qiita.com 12/25は終わってしまっていますが、、25日目の記事です。25日目といったら25日目なんです。 遅れた理由は色々とあるのですが、本題いきましょう1。 今回は、ずっとSpark Structure Streamingで良いんちゃう?って事で横目で見続けてきた、この子。 Flinkについてやっていきます。 …
NTTドコモ R&Dイノベーション本部 サービスイノベーション部 ビッグデータ基盤担当 4年目社員の小澤です。 2023年に続いて2年連続で、ラスベガス現地にて2024 AWS re:Inventに参加させていただきました。このような機会を作っていただいた、会社や自組織、チームのメンバーにはたいへん、感謝しております。期間中に発表されたアップデートの中でも、特に注目しているS3 Tablesと中身を深く理解するために、Apache Icebergの解説記事を投稿します。 AWS利用の若手エンジニア代表である2024 Japan AWS Jr. Championsと全資格保有者である2024 J…
データウェアハウスとデータレイクの違い データウェアハウス 加工後のデータのみを格納する ゆえに何のためのデータかが明確に決められた状態で格納される(目的指向) Amazon Redshiftなど 基本的なデータウェアハウスの構成 %%{init:{'theme':'forest'}}%% graph LR DataSources1[Data Source 1] --> ETL DataSources2[Data Source 2] --> ETL DataSources3[Data Source 3] --> ETL ETL --> DataWarehouse DataWarehouse -…
Hadoop Distributed File System (HDFS)は、Apache Hadoopプロジェクトの一部として開発された、分散ファイルシステムです。HDFSは、ビッグデータのストレージと処理に特化して設計されており、大量のデータを効率的に管理・保存するための機能を提供します。以下に、HDFSの主要な特性や仕組みについて詳しく説明します。 HDFSの基本概念 分散ストレージ HDFSは、データを複数のサーバーに分散して保存します。このため、単一のノードに依存せず、データの冗長性と可用性を高めます。ファイルは複数のブロックに分割され、それぞれが異なるノードに保存されます。 ブロッ…
Iceberg界隈で有名な方が、SpotifyにてOpen Table Formatの日本語Podcastを提供して下さっていたため勉強しました。 第1回から第3回まで聞いた内容のまとめを記します。 第1回 OTF誕生の背景 open.spotify.com Icebergが生まれた背景 データレイクに対してTransactionの仕組みを導入したい Netflixは2018年時点で60PBのデータをS3に保有 そのデータに対してhiveなど分散クエリエンジンで処理 Transactionの無さが問題に 複数のデータ処理エンジンが同時に同じファイルに読み書きしてしまう ex) 1テーブルを表す…
Apache Spark(アパッチ・スパーク)は、ビッグデータ処理のための高速で汎用的なクラスタコンピューティングシステムです。従来のHadoop MapReduceよりもはるかに高速なパフォーマンスを提供し、多様なデータ処理タスクに対応しています。今回は、Apache Sparkの概要、特徴、そしてその利点について詳しく解説します。 Apache Sparkとは? Apache Sparkは、分散処理フレームワークであり、膨大なデータセットを効率的に処理するために設計されています。主にビッグデータ分析や機械学習、リアルタイムデータ処理のために使用され、Hadoopと同様にクラスタ上で動作しま…
はじめに:HIVEとは? HIVE(High-level Intermediate Virtual Engine)は、ビッグデータの処理や分析を容易にするためのデータウェアハウス・ソフトウェアです。Hadoop上で動作し、SQLライクなクエリ言語であるHiveQLを使ってデータを操作します。HIVEは、大規模なデータセットを扱う場合でも、従来のRDBMS(リレーショナルデータベース管理システム)と似た感覚でクエリを実行できるため、データサイエンティストやエンジニアに人気があります。 特徴 HiveQL: SQLに似た言語で、学習コストが低い。 Hadoopとの統合: HIVEはHadoop上で…
Reproでチーフアーキテクトを担当しているjoker1007です。 今回、社内のデータストレージの将来的な選択肢の一つとしてApache Hudiというテーブルデータフォーマットについて調査と実データでの検証を実施しました。 この記事では2回に分けて、そもそもhudiってどんなフォーマットなのか、どういうデータで検証してどんな結果が得られたのかについて紹介します。 ということで第1回は、hudiそのものについての紹介をしていきます。 この記事はhudi-0.14.1を利用して検証した時のものです。また社内向けに書いた資料の手直しであるため丁寧語でないことに御留意ください。 Hudiとは何か、…
2024/06/16に開催された JJUG CCC Spring 2024 に参加してきました。 JJUG CCCはもちろん、オフラインの勉強会に参加するのは本当に久しぶりのことです。コロナ禍以来、こういうのとはすっかり遠ざかっていました (あと一時期Javaから離れていたこともありましたが) 。懐かしい方々とも久しぶりに顔を合わせて話をすることができて良かったです。 ということで参加したセッションについて軽く感想でも。 参加したセッション 次世代RDB劔"Tsurugi"にアクセスするJavaライブラリー・ツール JJUGキーノート: Java First. Java Always. Ado…
Trinoには標準でIcebergコネクタが付属しており、Icebergテーブルを読み書きすることができます。カタログの形式としては以下のものがサポートされています。 hive_metastore glue jdbc rest nessie snowflake この他にドキュメントには書かれていないのですが*1、testing_file_metastoreというローカルファイルシステムでIcebergをテストできるカタログタイプがサポートされており、これを使うとローカルで手軽にIcebergコネクタの動作を確認することができます。 設定は至って簡単でこんな感じ。 connector.name=…
. Iceberg Summit 2024 のセッション「eBay's Voyage with Apache Iceberg」を日本語でまとめます。 可能な限り正確に内容を拾えるようにリスニングに努めたつもりですが、もし誤りがあればご指摘ください。 Iceberg Summit とは? eBay's Voyage with Apache Iceberg スピーカー eBayのデータアーキテクチャの歴史 初期 ビッグデータ時代の到来 Icebergの導入 Icebergを導入したデータ基盤の全体像 Icebergを導入して特に嬉しかったこと Lake Manager eBayにおけるIceber…
行/列志向とか圧縮とかその辺の話 列指向データベース(Columnar Database)と行指向データベース(Row-Oriented Database)について書いていく。 とりあえず、列?行?という感じな人もいると思うが、どういうまとまりでデータを保存するか?というところの違いがある。 前に書いた内容では、OLTP, OLAPなどの分類方法での説明をしたが、今回は列志向、行志向という分類の話をする。 mnagaa.hatenablog.com 行指向データベース(Row-Oriented Database) 行指向データベースは、データが行単位で格納されるデータベースの一種。各行はテーブ…
「データエンジニアリングの基礎」を読んだので、感想・各章の内容についてまとめます www.oreilly.co.jp 全体を通しての感想 原本は Fundamentals of Data Engineering で本書は日本語訳となります。 筆者のJoe Reis氏とMatt Housley氏はデータエンジニアリングのコンサルタントを行っていて、業界経験が長いお二人です。 データエンジニア界隈は急速に変化する業界と本文中で書かれています。 業界変化の中で「変わらないもの」を選択し、今後数年間役に立つコンセプトをまとめたものと本書を説明しています。 上記の狙い通り、本書はツールや特定技術ソリュー…