並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 45件

新着順 人気順

duckdbの検索結果1 - 40 件 / 45件

duckdbに関するエントリは45件あります。 databasedbDuckDB などが関連タグです。 人気エントリには 『S3にあるALBログの調査はAthenaよりDuckDBのほうが簡単 - road288の日記』などがあります。
  • S3にあるALBログの調査はAthenaよりDuckDBのほうが簡単 - road288の日記

    AWSのALB(Application Load Balancer)のログはS3に置かれるが、この中身をサクッと調べたいとき、Athenaを使う方法が標準的で、下記で案内されているようにパーティション射影(Partition Projection)でテーブルを作ってAthenaからクエリする。 パーティション射影を使用して Athena で ALB アクセスログ用テーブルを作成する - Amazon Athena 私も従来はその方法を使っていたが、Athenaはブラウザから使うと動作がもっさりしているし、決まったクエリを1回きり実行して結果を取得したいだけのときならまだしも、探索的にクエリを何発も実行したいときには使い勝手が悪い。 最近他のプロジェクトでDuckDBを使うようになって、使い勝手の良さに感動していたが、DuckDBはALBのログを探索的に調べたいときにもめっちゃ使えると思った

      S3にあるALBログの調査はAthenaよりDuckDBのほうが簡単 - road288の日記
    • なぜ DuckDB を採用したのか

      概要 なぜ 自社 で DuckDB を採用したのかを、雑に書いていきます。 まとめ DuckDB / DuckDB-Wasm を利用する事で中小規模のサービスであれば、ログ解析や統計情報の可視化を低コストで提供することができる DuckDB を go-duckdb 経由で利用する事で、HTTP リクエスト単位での DuckDB を利用できる DuckDB-Wasm と OPFS を利用する事で、クライアント側での統計情報のため込みができるようになる 解決したい課題 解決したい課題は基本的にサービスの運用費を抑えるということです。中小規模のサービスでは運用費が大きな課題になります。 自社パッケージ向けのログ解析ツール 自社パッケージ製品は多くの JSON Lines 形式 (移行 JSONL) でログを出力します。 顧客からの問い合わせに対して、共有して貰ったログを解析して問題を特定すること

        なぜ DuckDB を採用したのか
      • 5分でわかるDuckDB

        「合同勉強会 in 大都会岡山 -2024 Winter-」の発表資料です。 https://gbdaitokai.connpass.com/event/330065/

          5分でわかるDuckDB
        • ブラウザで動作する地理空間データ処理ライブラリとして DuckDB-wasm を使い、 SQL を TypeScript で管理する仕組みを作る - newmo 技術ブログ

          newmo では、地図データや地理情報を扱う場面が多くあります。 たとえば、タクシーやライドシェアでは、営業区域のような営業していいエリアといった地理的な定義があります。 また、乗り入れ禁止区域のようなタクシーが乗り入れてはいけないエリアといった定義も必要になります。 これらの地理に関する定義は GeoJSON のような地理情報を扱うデータ形式で管理されることが多いです。 しかし、GeoJSONなどの定義をテキストとして手書きするのは困難です。 そのため、地図上に区域を作図するエディタやその定義した区域が正しいかをチェックするような管理ツールが必要です。 管理ツールは、ウェブアプリケーションとして作った方が利用できる環境が広がります。 このような地理情報は一度に扱うデータが多かったり、空間的な計算処理が必要になるため、専用の仕組みを使うことが多いです。 このような技術を、地理情報システム(

            ブラウザで動作する地理空間データ処理ライブラリとして DuckDB-wasm を使い、 SQL を TypeScript で管理する仕組みを作る - newmo 技術ブログ
          • DuckDBを使ったシンプルで安価なデータマネジメント

            CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again

              DuckDBを使ったシンプルで安価なデータマネジメント
            • An in-process SQL OLAP database management system

              Simple DuckDB is easy to install and deploy. It has zero external dependencies and runs in-process in its host application or as a single binary. Read more Portable DuckDB runs on Linux, macOS, Windows, and all popular hardware architectures. It has idiomatic client APIs for major programming languages. Read more Feature-rich DuckDB offers a rich SQL dialect. It can read and write file formats suc

                An in-process SQL OLAP database management system
              • AWS Athenaの安価な代替手段:Lambda x DuckDB - Qiita

                Athena Amazon Athenaは、標準SQLを使用してAmazon S3に保存されたデータを分析することができる、強力でサーバーレス、インタラクティブなクエリサービスです。複雑なETLパイプラインやデータウェアハウスを設定して管理する必要がなく、大量のデータを処理する組織にとって魅力的なオプションです。ただし、Athenaの価格設定は、予算が厳しい場合など、すべてのユーザーに適しているわけではありません。このブログ投稿では、Athenaの代替となる、低コストで同等の機能を提供できるアルティメットを紹介します。 利点: Athenaの主な利点の1つは、Amazon S3のデータを、複雑なETLプロセスや専用のデータウェアハウスなしに、標準SQLクエリを使用して分析できることです。 Athenaはサーバーレスでもあり、データ量やクエリの複雑さに基づいて自動的にスケールされるため、事前

                  AWS Athenaの安価な代替手段:Lambda x DuckDB - Qiita
                • DuckDB で JSON Lines 形式のログを精査する

                  まとめ 圧縮された複数の JSON Lines を読み込める S3 から直接読み込める 好きなタイミングで Parquet で出力 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck 圧縮済みのログを読み込む 解析対象のログファイルって spam-20240501.jsonl.gz や egg-20240601.jsonl.zst みたいに圧縮されていたりします。 特に日付単位で分かれてたりすることは多いです。そこから目的のログを探し出すのは、基本はスクリプトを書くことが多いと思います。 DuckDB を使えば色々解決します。

                    DuckDB で JSON Lines 形式のログを精査する
                  • DuckDB-Wasm + 生成AI on Next.js で、どなたでも、いますぐ、地理空間情報の分析ができましてよ

                    本日のデモ 本日のソースコード タイトルには、文字数の限界で、DuckDB-Spatialという言葉を入れられなかったですわ。 もちろん、今回も、DuckDB-Wasmに加えて、DuckDB-Spatialも活用していますわよ。 はじめに わたくしは、学術的研究として、生成AIによるSQLクエリ生成、そして、生成AIによる地理空間情報の分析と可視化、といった事例が既に多数あることは知っていますわ。 しかしながら、いったい、どれだけの研究者が、そうした研究を、実際にどなたでもが触ることのできるWebアプリケーションやスマートフォンアプリケーションなどのソフトウェアプロダクトとしてデプロイして、本気で世界を変えたいという情熱を持っているのでしょうかしら? わたくしは、どのようなアイデアも、ソフトウェアプロダクトとして、どなたでも試せるようにデプロイしてこそ、ようやく世界を変える第一歩目だと考え

                      DuckDB-Wasm + 生成AI on Next.js で、どなたでも、いますぐ、地理空間情報の分析ができましてよ
                    • オープンソースの S3 互換オブジェクトストレージ MinIO を DuckDB で使う

                      前提 DuckDB が使える環境 Docker Compose が使える環境 まとめ DuckDB から S3 互換オブジェクトストレージを利用する際、MinIO を使う事で、ローカルに気軽に S3 互換オブジェクトストレージ環境を用意できる。 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck MinIO とは MinIO はオープンソースの S3 互換オブジェクトストレージです。 DuckDB は S3 API 機能を持っており、S3 互換オブジェクトストレージとの相性がとても良いです。 ローカルで試したい時などに Docker Compose で MinIO を用意して利用すると、とても便利です。 Docker Compose ローカルということでセキュリティは一切考慮していません MinIO のイメージを pu

                        オープンソースの S3 互換オブジェクトストレージ MinIO を DuckDB で使う
                      • DuckDB-Wasm + DuckDB-Spatial = Webブラウザ上で完結する地理空間情報分析

                        本日のデモ: 本日のソースコード: おっと、待たせたねぇ!今日は「DuckDB-Wasm」と「DuckDB-Spatial」についてご案内いたしやすよ! この記事を読めば、ブラウザだけで地理空間情報の分析をサクッとこなせすための環境構築や、便利な関数を使った地理空間情報分析の基本がバッチリわかるって寸法よ!これを知っときゃ、サーバーいらずで本格的な地理空間情報分析ができちまうし、つまずきやすいポイントもスッキリ解消!あんたもいますぐ地理空間情報分析の達人になれるこたぁ間違いなしだ!さぁ、江戸っ子の心意気で、いますぐその手で試してみな! Vite.js + React でやんでぇ!まず、Vite.js + React + TypeScriptを開発環境の基板とするってのは、問答無用で決まりだ!ほかにゃ選択肢はねぇってわけよ。Viteの速さ、Reactの使いやすさと豊富なライブラリのエコシステ

                          DuckDB-Wasm + DuckDB-Spatial = Webブラウザ上で完結する地理空間情報分析
                        • DuckDB雑紹介(1.1対応版)@DuckDB座談会

                          2024年6月に発表した(https://speakerdeck.com/ktz/duckdbza-shao-jie)内容にDuckDB バージョン1.1の変更点を追記した版

                            DuckDB雑紹介(1.1対応版)@DuckDB座談会
                          • 🦆🦆🦆🦆🦆🦆DuckDB入門🦆🦆🦆🦆🦆🦆

                            tl;dr SQLiteのOLAP版だよ OLAP系のクエリにおいて、PandasやSQLiteより早いらしいよ CSV・Parquet・Pandas DataFrameの読み書きできて便利だよ 背景 ポジション・競合 一言で言うとSQLiteのOLAP版です。位置づけとしては、論文(DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo))記載のSystem Landscapeがわかりやすいです。 (DuckDB: an Embeddable Analytical Database (SIGMOD 2019 Demo)より) このLandscapeでは、データベースを Standalone(クライアント・サーバモデル)か、組み込み(シングルマシン・インプロセス)か OLTPかOLAPか の二軸に分割しています。その上で、 ク

                              🦆🦆🦆🦆🦆🦆DuckDB入門🦆🦆🦆🦆🦆🦆
                            • DuckDB雑紹介

                              DuckDBを触っていて特に興味を持った機能を中心に雑解説します。

                                DuckDB雑紹介
                              • DuckDB メモ v1

                                色々古くなったので 1 から書き直した DuckDB メモ v2 モチベーション JSONL を読み込んで解析するツールが欲しかった ログを読み込ませたいので圧縮機能は必須 自社のパッケージ製品が出力する JSONL を読み込んで解析できる仕組み 顧客が問題解析を気軽にできるようにしたい 顧客向けツールとして提供したい つまり顧客環境で動かしたい 1 バイナリ OSS として提供したい Apache-2.0 として公開したい ログファイルは大きくても 100 GB は行かない もともと Go + SQLite + JSONB で検討していた SQL で書きたい SQLite ファイルとして書き出したい SQLite ファイルフォーマットは信頼できる S3 などにファイルを置いておくだけにしたい クラウド版に組み込みたい 顧客毎に duckdb ファイル作ればいいのでは? duckdb ファ

                                  DuckDB メモ v1
                                • DuckDB as the New jq

                                  Recently, I’ve been interested in the DuckDB project (like a SQLite geared towards data applications). And one of the amazing features is that it has many data importers included without requiring extra dependencies. This means it can natively read and parse JSON as a database table, among many other formats. I work extensively with JSON day to day, and I often reach for jq when exploring document

                                  • SQL+Markdownだけでデータ可視化できるOSS Evidenceを使ってPerfumeの楽曲分析をしてみる - Qiita

                                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? BIをコード管理したくないですか?私はしたいです。 BI as Codeを謳うOSSがあるようなので、Get Startedしてみます。 環境構築 公式ドキュメントを見ると、VSCodeのExtensionを入れて開発することを推奨しているようです。 2.Open the Command Palette (Ctrl/Cmd + Shift + P) and enter Evidence: New Evidence Project 3.Click Start Evidence in the bottom status bar 拡張機能のイ

                                      SQL+Markdownだけでデータ可視化できるOSS Evidenceを使ってPerfumeの楽曲分析をしてみる - Qiita
                                    • DuckDBでお手軽!データフェデレーション - Techtouch Developers Blog

                                      tl;dr はじめに DuckDB とは DuckDB では何が読めるのか 使ってみる S3 上のJSON を読んでみる リレーショナルデータベース 他ツールではなく DuckDB を使うメリット しくじりポイント (特にリリースされたばかりの)バージョンには気をつける S3 のオブジェクト数が多い場合不都合がありがち スレッドの調整が必要な場合も Redshift には未対応 終わりに 付録 MySQL のデータを読み込む例の MySQL 側の準備 tl;dr DuckDB 便利だよ。分析以外でも使えるよ 色々な場所のデータを閲覧・結合できるよ。標準SQLも使えるよ ただし、細かい落とし穴は色々あるので気をつけてね はじめに2023年4月にデータエンジニアとして入社したmin(@not_rogue)です。暖かくなるにつれ、YouTube で見た南伊豆ロングトレイル | 松崎町に行く機運が

                                        DuckDBでお手軽!データフェデレーション - Techtouch Developers Blog
                                      • DuckDB+Evidenceを駆使してISUCON14で21位になった話 - Gマイナー志向

                                        2024年12月8日に開催されたISUCON14に「ウー馬場ーイーツ・ザ・ファイナル」として参加しました。最終スコアは29,386でした。実装言語はGoです。 こんなPostをしてましたがRustは採用しませんでした(今回は余裕がなかった)。 講談社サイエンティフィク様からのご厚意で書籍「RustによるWebアプリケーション開発」をご恵贈いただきました。早速読み進めてます。今年のISUCONはRustで決まりかー!? #PR https://t.co/sOAcWEqE8P pic.twitter.com/cK7V6lPMQk— matsuu (@matsuu) 2024年10月8日 今年のチャレンジについて 我らがチームはISUCON開催のたびに新たなチャレンジ*1をしてるのですが、今回は以下の4つにチャレンジしました。 ログ解析の見直し 生成AIの導入 rustlsの導入 bpftune

                                          DuckDB+Evidenceを駆使してISUCON14で21位になった話 - Gマイナー志向
                                        • DuckDB/DuckDB-Wasm と Postgres と S3 を組み合わせるメモ

                                          モチベーション Postgres は OLTP として利用したい DuckDB は OLAP として利用したい 集計を Postgres でやらず、独立した DuckDB でやりたい データ保存は S3 を利用したい 保存先として一番安い 一定期間経ったら削除が簡単にできる 細かいデータ処理は DuckDB-Wasm を利用してクライアント側のリソースを利用したい 一度前処理したデータは S3 に Parquet 形式で置いておきたい 転送量ボトルネックに寄せる Cloudflare R2 などを利用すれば転送量はかからなくなる 概要 DuckDB は Postgres に直接アクセスできる仕組みを持っている PostgreSQL Extension – DuckDB Postgres のテーブルを DuckDB に持ってこれる COPY でテーブルを Parquet ファイルにすることが

                                            DuckDB/DuckDB-Wasm と Postgres と S3 を組み合わせるメモ
                                          • DuckDB を使ったデータ品質保証の実践 - Timee Product Team Blog

                                            この記事は Timee Advent Calendar 2024 シリーズ 1 の5日目の記事です。 はじめに こんにちは。タイミーの DRE チームの chanyou です。2024年の3月に DRE チームにジョインして、社内のデータ基盤を作って運用しています。 DuckDB を使ってデータ基盤で扱うデータの品質を保証し始めたので、その内容をご紹介します。 データ品質と完全性 タイミーのデータ基盤で重視しているデータ品質 タイミーでは、DMBOK を参考に以下のデータ品質を重視して設計や日々の運用を行っています。 特性 意味 完全性 データが欠損していないか 適時性 必要なときにすぐにデータを参照できるか 一意性 データが重複していないか 一貫性 型・タイムゾーン・表記揺れなど、値の書式や意味が統一されているか 今回は完全性にフォーカスします。 完全性が損なわれるタイミング 上記の通り

                                              DuckDB を使ったデータ品質保証の実践 - Timee Product Team Blog
                                            • DuckDB/DuckDB-Wasm を利用した低コストでの可視化

                                              前提 ミドルウェアのログ可視化 ログサイズは全体で 1 TB 未満 ログは jsonl で出力される まとめ 非同期での可視化 オフラインでの可視化 低コスト DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck サンプル とりあえず動くのが見たい人用です。ソースコードも公開してます。 DuckDB-Wasm + Parquet + S3-compatible object storage + OPFS S3 から Parquet ファイルを fetch して DuckDB-Wasm への登録 OPFS へ Parquet ファイルの保存 OPFS から Parquet ファイルの読み込み DuckDB-Wasm へ登録 SAMPLE 1 の出力 SAMPLE 1 での検索 SAMPLE 1 での Parquet ファイ

                                                DuckDB/DuckDB-Wasm を利用した低コストでの可視化
                                              • pg_duckdb - PostgreSQL プロセス上の DuckDB で OLAP ワークロードを処理する

                                                本記事の概要 pg_duckdb は、PostgreSQL のプロセス上でインプロセス OLAP クエリエンジンである DuckDB を実行するための拡張です。 DuckDB を利用することで、以下のようなメリットがあります。 PostgreSQL のネイティブクエリエンジンと比べ、OLAP ワークロードをより高速に処理できる。 DuckDB の拡張を利用し、 Iceberg や Delta lake といったオープンテーブルフォーマットでオブジェクトストレージ上に構築したデータレイクのデータを分析できる。 本記事では、 PostgreSQL 拡張の pg_duckdb の概要、私が pg_duckgb に注目した背景、および簡単な使い方などを紹介します。 pg_duckdb の概要 pg_duckdb は、スタートアップの Hydra、DuckDB 開発元の DuckDB Labs、Sa

                                                  pg_duckdb - PostgreSQL プロセス上の DuckDB で OLAP ワークロードを処理する
                                                • コードマップ: DuckDBのフルスキャンクエリ

                                                  コードマップ: DuckDBのフルスキャンクエリ 自分がDuckDBの全体像を何となく理解するためにコードを読みつつメモしたコードマップの記事です。 DuckDBのバージョン1.0.0時点でのコードを、一番シンプルであろうフルスキャンのクエリ実行にフォーカスしてトレースしたものです。 大きな画像が見やすいビューワーで開くのをお勧めします。300KBもない軽いSVGですが画像サイズはかなり大きいので。 注釈: 関数から矢印が出ていない場合は同じファイルの関数を読んでいることが多いので、同じファイルを下方へ読み進めると先が見つかることが多いです。 時々は...といった読み飛ばした表示があるのですが、記されているコードはほぼ全て部分的に引用されており、関数のコード全部が入っていることはほぼ無いです。 関数のシグネチャや引数が箇所によっては書き漏れている場合があります。 図の左上に示されているよう

                                                  • DuckDB-Wasm: Efficient Analytical SQL in the Browser

                                                    TL;DR: DuckDB-Wasm is an in-process analytical SQL database for the browser. It is powered by WebAssembly, speaks Arrow fluently, reads Parquet, CSV and JSON files backed by Filesystem APIs or HTTP requests and has been tested with Chrome, Firefox, Safari and Node.js. You can try it in your browser at shell.duckdb.org or on Observable. DuckDB-Wasm is fast! If you're here for performance numbers, h

                                                      DuckDB-Wasm: Efficient Analytical SQL in the Browser
                                                    • Separating Storage and Compute in DuckDB - MotherDuck Blog

                                                      The first cloud data warehouse to separate storage and compute was BigQuery, and was outlined in the Dremel paper in 2008. Yes, Jordan is a little bitter about this because Snowflake claimed to have invented it several years later. Of course, as one does, when Jordan mentioned this to some database guru, he was immediately corrected and told that IBM had been separating storage and compute in the

                                                        Separating Storage and Compute in DuckDB - MotherDuck Blog
                                                      • オープンソースの分析データベースシステム「DuckDB」 バージョン1.0.0公開

                                                        DuckDBチームは2024年6月3日(オランダ時間)、オープンソースの分析データベースシステム「DuckDB」の正式バージョン1.0.0を公開した。 DuckDBは、2018年にプロジェクトの最初のソースコードが作成された。現在のC++エンジンのコードは30万行を超える。速度、信頼性、ポータビリティ、使いやすさに重点を置いて設計されており、豊富なSQLの方言をサポートしている。サードパーティーによる拡張機能も複数構築、配布されている。 スタンドアロンのCLI(コマンドラインインタフェース)アプリケーションとして利用可能で、Python、R、Java、Wasmといったクライアントがあり、pandasやdplyrなどのパッケージと深く統合されている。 DuckDB 1.0.0の重点ポイント 関連記事 PostgreSQLの主要コントリビューター「EDB」が語る、クラウドネイティブデータベース

                                                          オープンソースの分析データベースシステム「DuckDB」 バージョン1.0.0公開
                                                        • DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの

                                                          この記事はdbt Advent Calendar 2022の12月1日の記事です。 サマリ DuckDBとdbtを使えばローカル環境で一定のデータ量であればオレオレDWHっぽいものが作れるようになる 社内にデータ分析基盤がない、データ活用しようにもデータ基盤がなく本格的に取り組もうと思うとセキュリティや運用までかんがえると始めることすらままならないようなプロジェクトや会社でも始められる可能性がある MLのデータの前処理とdb Pythonモデルを使ってローカル環境で一定のクレンジングと前処理のパイプライン等も作れるかも? DuckDBとは? SQLiteをベースとした軽量で高速なOLAPデータベースです。 近年のPCのメモリ増加で16GBとか乗っていると数百万行ぐらいのデータでもローカルで高速に一定処理することが可能になってしまっています。 詳しくは @notrogue さんが書いた記事を

                                                            DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの
                                                          • DuckDB-Wasm を利用したブラウザでのログ解析機能

                                                            時雨堂の自社サービスのアピールが含まれます 概要 これは自社サービスの管理者用ダッシュボードのログ解析機能として DuckDB-Wasm を採用したので雑に紹介します。 DuckDB とは こちらをどうぞ。 DuckDB雑紹介(1.1対応版)@DuckDB座談会 - Speaker Deck まとめ DuckDB-Wasm を利用する事でクライアントリソースが利用できるようになった Parquet ファイルを OPFS に保存できるようになり、オフラインで利用できるようになった 自分が求めるレベルでの可視化は全て DuckDB/DuckDB-Wasm で十分だとわかった ダッシュボードの実装 自社が提供している 自社パッケージ製品を検証できるサービス の管理者用ダッシュボード(以降ダッシュボード)で DuckDB-Wasm を利用してログ解析をブラウザ上で実現しています。 Fluent B

                                                              DuckDB-Wasm を利用したブラウザでのログ解析機能
                                                            • CSV Files: Dethroning Parquet as the Ultimate Storage File Format — or Not?

                                                              File Formats CSV Files Data is most commonly stored in human-readable file formats, like JSON or CSV files. These file formats are easy to operate on, since anyone with a text editor can simply open, alter, and understand them. For many years, CSV files have had a bad reputation for being slow and cumbersome to work with. In practice, if you want to operate on a CSV file using your favorite databa

                                                                CSV Files: Dethroning Parquet as the Ultimate Storage File Format — or Not?
                                                              • Announcing DuckDB 1.0.0

                                                                TL;DR: The DuckDB team is very happy to announce that today we’re releasing DuckDB version 1.0.0, codename “Snow Duck” (anas nivis). To install the new version, please visit the installation guide. For the release notes, see the release page. It has been almost six years since the first source code was written for the project back in 2018, and a lot has happened since: There are now over 300 000 l

                                                                  Announcing DuckDB 1.0.0
                                                                • DuckDB Community Extensions

                                                                  TL;DR: DuckDB extensions can now be published via the DuckDB Community Extensions repository. The repository makes it easier for users to install extensions using the INSTALL ⟨extension name⟩ FROM community syntax. Extension developers avoid the burdens of compilation and distribution. DuckDB Extensions Design Philosophy One of the main design goals of DuckDB is simplicity, which – to us – implies

                                                                    DuckDB Community Extensions
                                                                  • ローカル環境のみ利用したdbtチュートリアル

                                                                    dbtの公式チュートリアルはBigQueryなどクラウド環境を利用する前提で書かれていたので、ローカル環境だけでできるようにDuckDBを用いたチュートリアルを書きました。また、公式チュートリアルにはgitの操作なども含まれていたため、dbtを利用するのに最低限必要そうなもののみに絞って書こうと思います。 以下の素晴らしい記事を参考にして書いています。 dbt公式チュートリアル Getting started with dbt Core | dbt Developer Hub DuckDBとdbtとRillで作るローカルで動くDWHっぽいもの dbtとは? dbtはETL(Extract/Transform/Load)でいうところのtransformationのワークフローを助けてくれるツールです。 dbtを利用することのメリット 変数のようなものを利用できて、同じようなSQLを書かなくて

                                                                      ローカル環境のみ利用したdbtチュートリアル
                                                                    • GISエンジニアの必携ツールとなったDuckDBの紹介 - Qiita

                                                                      はじめに 「GISエンジニア」というデカい主語で始まった本記事。最近話題のDuckDBですが、GISデータを扱うのに非常に有用で、今までGeoPandasやPostGISでやっていたような処理を、CLIで・最小の環境構築で・高速に実行できます。本記事では、GISデータのプロセッシングという観点で、使い方を紹介します。 DuckDBとは何か 正確な定義については私は間違えそうなので公式Webサイトなどをご覧いただくとして。 「DBというくらいだから、データベースなんでしょ?」正解です。しかしPostgreSQLなどのようなある種「重厚な」DBソフトウェアとはちょっと違います。PostgreSQLでいうとpsqlクライアントだけが利用出来るようなイメージです(厳密には永続的なデータベースも作成は出来るが)。 私の理解では、DuckDBは「DBクライアント」であり「CLIツール」です。DuckD

                                                                      • SQL分析を爆速で実現するDuckDBの魅力! - FLINTERS Engineer's Blog

                                                                        お世話になっております。FLINTERSでデータエンジニアをしている堀と申します。今回の投稿はFLINTERSブログ祭りの記事です。テーマは #データ分析 #SQL #技術 です。 本日は爆速分析SQLエンジンのDuckDBを紹介したいです。 そもそも https://duckdb.org/ brew install duckdb ポイント インストールかんたん パッと起動して、さまざまなデータソースにSQL分析ができる 豊富なインプット方法、アウトプット方法 ローカルのデータファイル(CSV, JSON, parquet, Excel) http(s)でアクセスできるデータファイル S3/GCS/Azure Blob Storage上のデータファイル PostgreSQL MySQL また、DuckDBは各言語のクライアントライブラリでもある。いろいろあるよ SQLの実行が爆速 なんでD

                                                                          SQL分析を爆速で実現するDuckDBの魅力! - FLINTERS Engineer's Blog
                                                                        • HTAPとは何か?

                                                                          (これはHTAPデータベース アドカレ2024 の1日目の記事です。) HTAPとは HTAPとは、 『Hybrid Transactional and Analytical Processing』 の略語であり、オンライントランザクション処理(OLTP)と分析処理(OLAP)を同時に実行すべく考えられた方式や、それを実装したデータベースを指します。 現在のデータベース利用においても、技術的理由やコスト・リソース面など様々な点に課題があり、2つのワークロードを同時に捌くことは容易ではありません。そのため、OLTP用データベースとOLAP用データベースは分割されることが多くなっています。 そもそも、用途別にデータベースを使い分けようという考え方を掲げるクラウドもあります。 では、HTAPとはそうした課題をクリアした「なんでもこなせる夢のデータベース」なのでしょうか。 本日の投稿の趣旨としては

                                                                            HTAPとは何か?
                                                                          • TSKaigi Kansaiから帰ってきてDuckDB Wasmで遊んだ - Mitsuyuki.Shiiba

                                                                            カケハシのスタッフとしてTSKaigi Kansaiに参加して楽しんできた。 スポンサーのランチLTでカケハシのメンバーも喋るからブースを抜け出して見に行ってたら、newmoの大貫さんのLTで「DuckDB Wasmを使ってクライアントだけで処理したよ!」って発表があって、面白いなーと思ったのだった。 kansai.tskaigi.org ので、遊んだ DuckDBは初めて知ったし、Wasmには興味があるので、遊んでみた。GitHub Pagesにアップロードしておいた。11/18の日本各地の最高気温が分かるよ! https://bufferings.github.io/vite-react-duckdb-wasm/ やってるのは DuckDB Wasmをクライアントで取得して e-Govデータポータルの11/18の最高気温のCSVをDuckDBに入れて そのDBの内容をテーブルに表示 テ

                                                                              TSKaigi Kansaiから帰ってきてDuckDB Wasmで遊んだ - Mitsuyuki.Shiiba
                                                                            • MotherDuck: Serverless Data Analytics with DuckDB

                                                                              Final Countdown for Small Data SF Tickets: Grab one for 9/23 + 9/24 before it's too lateLet's do this 🚀

                                                                                MotherDuck: Serverless Data Analytics with DuckDB
                                                                              • MotherDuck社の公式ブログのチュートリアル「DuckDB Tutorial For Beginners」をやってみた | DevelopersIO

                                                                                さがらです。 MotherDuck社の公式ブログのチュートリアル「DuckDB Tutorial For Beginners」をやってみたので、本記事でその内容をまとめてみます。 検証環境 OS:Ubuntu 24.04 LTS(WSL2) 事前準備 下記のリポジトリのフォルダからサンプルデータのファイルをダウンロードしておきます。(今回は作業ディレクトリの中にdataフォルダを作り、その中に格納します。) インストール 以下のコマンドを実行して、インストールします。(最新のインストール用のコマンドはこちらのドキュメントも併せてご覧ください。) # 最新バージョンをダウンロード wget https://github.com/duckdb/duckdb/releases/download/v1.1.0/duckdb_cli-linux-amd64.zip # 解凍 unzip duckdb

                                                                                  MotherDuck社の公式ブログのチュートリアル「DuckDB Tutorial For Beginners」をやってみた | DevelopersIO
                                                                                • DuckDB メモ v2

                                                                                  前提 自社製品では JSONL 形式のログが色々出力される 自社製品は分散システムなためログも分散する 自社サービスのログファイルは大きくても無圧縮で 1 日 100 GB いかない程度 Fluent Bit で gzip で圧縮した JSONL 形式のログを S3 互換オブジェクトストレージ (以下 S3) に保存する モチベーション 自社パッケージ製品のクラウドサービスで、顧客にログ解析情報を提供したい その仕組みを OSS 化して、自社パッケージ製品を利用している顧客が利用できるようにしたい S3 から gzip で圧縮された JSONL ログ(複数) を取得して、横断的に解析したい 自動でスキーマは作成してほしい 解析結果を DuckDB ファイルとして出力し S3 へ保存したい 出力した DuckDB ファイルを DuckDB-Wasm で読み込ませたい コストを低くしたい 転送

                                                                                    DuckDB メモ v2

                                                                                  新着記事