共有
  • 記事へのコメント21

    • 注目コメント
    • 新着コメント
    その他
    kiririmode
    kiririmode メモリに載らない量のデータの基本統計量の算出

    2023/06/09 リンク

    その他
    Windymelt
    Windymelt parquet形式だ。いいよね。pyarrowはdaskってやつから呼び出す感じなんだろうか。 / 自分だったらPython使わずに直接Sparkとかで処理しちゃうだろうな

    2023/06/06 リンク

    その他
    cartman0
    cartman0 逐次読み込みなかったっけ?

    2023/06/06 リンク

    その他
    hiromi_ayase
    hiromi_ayase ファイルI/Oはストリーム処理が基本だし何が難しいんだろう・・・?と思ったらpandas限定の問題だった

    2023/06/06 リンク

    その他
    megadrive
    megadrive kaggle

    2023/06/06 リンク

    その他
    prjpn
    prjpn エンジニアリング力が試される環境

    2023/06/06 リンク

    その他
    coolworld
    coolworld 趣味として楽しむのならいいけど、業務ならRDBにつっこむな。

    2023/06/06 リンク

    その他
    havanap
    havanap Rでよしなにやってくれなかったっけ

    2023/06/06 リンク

    その他
    Ez-style
    Ez-style 業務で作業するならBQに突っ込めでFAとして、CSVの基本統計量を計算するだけなら grep と awk という手段が(老人会脳 / 身も蓋もないことをいえば、アタリをみたいだけならランダムサンプリングすればよくね。

    2023/06/06 リンク

    その他
    strawberryhunter
    strawberryhunter サーバーなら2GBでも珍しくない。1回読むだけなら1行ずつ読む、だけど要件次第。ストレージに余裕がないとSQLiteやParquetへの変換もできないし。

    2023/06/06 リンク

    その他
    kotaponx
    kotaponx 使い慣れたsqlite3使うことが多いけど、やっぱシングルスレッドはきついんよね……

    2023/06/06 リンク

    その他
    circled
    circled 多分この手の処理をする人の給料の1日分でメモリ64GB程度は余裕で買えそうだから、普通にPCにメモリ足せば良いのでは?しかも仕事なら、この手の処理は何度もやって来ますでしょう?

    2023/06/06 リンク

    その他
    ya--mada
    ya--mada sqliteだとツライのかな?

    2023/06/06 リンク

    その他
    kisiritooru
    kisiritooru パソコンでやっているのに、おぼろげながら浮かんできたんです。人力と言う言葉が。

    2023/06/06 リンク

    その他
    knok
    knok daskかなと思ったらdaskだった

    2023/06/06 リンク

    その他
    ytn
    ytn 地獄の中に楽しみを見つけるが如き

    2023/06/06 リンク

    その他
    perl-o-pal
    perl-o-pal swapon…

    2023/06/06 リンク

    その他
    nakag0711
    nakag0711 RDB使わない場合はDask+Parquetと

    2023/06/06 リンク

    その他
    Fluss_kawa
    Fluss_kawa 逐次読み込みで基本統計量計算するアルゴリズムなかったっけ?

    2023/06/06 リンク

    その他
    y-kawaz
    y-kawaz あとで読む

    2023/06/06 リンク

    その他
    nna774
    nna774 “カラムナフォーマット”

    2023/06/06 リンク

    その他

    注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

    アプリのスクリーンショット
    いまの話題をアプリでチェック!
    • バナー広告なし
    • ミュート機能あり
    • ダークモード搭載
    アプリをダウンロード

    関連記事

    1100万行・32GB超の巨大CSVファイルの基本統計量を4GBメモリマシンで算出する - Qiita

    はじめに この記事は,Kaggle Advent Calendar 2022第6日目の記事になります。 記事では、 32GB超のCS...

    ブックマークしたユーザー

    すべてのユーザーの
    詳細を表示します

    同じサイトの新着

    同じサイトの新着をもっと読む

    いま人気の記事

    いま人気の記事をもっと読む

    いま人気の記事 - テクノロジー

    いま人気の記事 - テクノロジーをもっと読む

    新着記事 - テクノロジー

    新着記事 - テクノロジーをもっと読む

    同時期にブックマークされた記事