SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

連載記事

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZine BOOKS(コードジン・ブックス)は、CodeZineの連載からカットアップした、開発現場の課題解決に役立つ書籍シリーズです。

書籍に関する記事を見る

'); googletag.cmd.push(function() { googletag.pubads().addEventListener('slotRenderEnded', function(e) { var ad_id = e.slot.getSlotElementId(); if (ad_id == 'div-gpt-ad-1659428980688-0') { var ad = $('#'+ad_id).find('iframe'); if ($(ad).width() == 728) { var ww = $(window).width(); ww = ww*0.90; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/728+","+ww/728+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/728+","+ww/728+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/728+","+ww/728+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/728+","+ww/728+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(90*ww/728)+"px;width:"+728+"px;}", 0 ); } else { if ($(window).width() < 340) { var ww = $(window).width(); ww = ww*0.875; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/320+","+ww/320+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/320+","+ww/320+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/320+","+ww/320+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/320+","+ww/320+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(180*ww/320)+"px;width:"+320+"px;}", 0 ); } } } }); }); } else { document.write('
'); document.write('
'); }
特集記事

CSVファイルフォーマットの解説

CSV形式の詳細と、データ交換時の取り決め


  • X ポスト
  • このエントリーをはてなブックマークに追加

CSVファイルは最も普及したデータ交換用フォーマットですが、様々な方言があります。本稿ではCSVファイルフォーマットの仕様とデータ交換時のポイントを説明します。

  • X ポスト
  • このエントリーをはてなブックマークに追加

はじめに

 CSVファイルは最も普及したデータ交換用フォーマットですが、さまざまな方言があります。

 本稿ではCSVファイルフォーマットの仕様とデータ交換時のポイントを説明します。

対象読者

 CSVファイルを扱うDB管理者、開発者。

CSVとは?

 CSVとはComma-Separated Valuesの略で、カンマ区切りで並べた値という意味です。

 CSVファイルの例として、一般的なアドレス帳データを示します。

一般的なアドレス帳のCSV形式の例
"姓","名","生年月日","郵便番号","住所","電話番号"
"山田","太郎","2001/1/1","100-0002","東京都千代田区皇居外苑","03-1234-5678"
"山田","次郎","2001/1/2","251-0036","神奈川県藤沢市江の島1丁目","03-9999-9999"

 カンマで区切られたデータの横一列を"行"(英:Row)、縦一列を"列"(英:Column)と呼びます。先頭行は各列のタイトルです。

ファイルフォーマット仕様

ファイル形式

 ファイルはテキスト形式です。

文字コード

 規定はありませんが、日本では主にShift_JIS、他にEUC、Unicodeなどを使います。

ヘッダ行の有無

 最初の1行がデータではなく、各カラムのタイトルになっている場合があります。これをヘッダと呼びます。

CSVのヘッダ行の例
"姓","名","生年月日","郵便番号","住所","電話番号"

 使う側が各カラムの意味を認識しているのであれば、あってもなくてもかまいませんが、他システムとのデータ交換時には、ヘッダを付けるか付けないかの取り決めが必要です。

区切り文字の種類

 CSVは「,」(カンマ)区切りが基本ですが、<TAB>(タブ)で区切る場合もあります。これを特にTSV(Tab-Separated Values)と呼びます。TSVはよく利用されますが、データ内に<TAB>を含まないことが前提です。もし含む場合は、削除もしくは置換を行います。

TSV形式
山田 <TAB> 太郎 <TAB> 2001/1/1 <TAB> 100-0002 <TAB> 東京都千代田区皇居外苑

 本稿ではカンマ区切りのみを扱います。

 ※2008/06/07追記:カンマ区切りCSVのCは「Comma」ですが、タブ区切りのTSVなどもまとめて「CSV」=「Character-Separated Values」と呼ぶそうです。

改行コード

 改行コードはプラットフォームによって異なります。一般的にWindowsは<CR><LF>、UNIXは<LF>です。

 ※2008/04/16追記:RFCでは末尾(レコードの区切りとして)の改行は<CR><LF>を推奨しています。CSVを解釈するプログラムではどちらの改行コードでも読めるように作ることをお勧めします。

 ※2008/06/07追記:本稿のコメントでRFC4180と改行コードに関するご指摘があります。ただし、CSVがRFC4180よりも以前に考えられた形式でありRFCを正としているわけではないこと(CSVの実装には、各社独自の拡張や制約がある。ただし、歴史的に見れば、これらの実装のほうがRFC 4180以前から存在している。- Wikipediaより引用)、CSVはテキストエディタで編集できること自体がこのフォーマットの利点であり自然と改行コードはプラットフォームに合わせること、などから上記の記述になっています。

ダブルクォート

 CSVでは値をダブルクォートで囲みます。

値はダブルクォートで囲む
"山田"

 しかし、ダブルクォートを使わない場合もあります。これは値の中に「ダブルクォート(")」「カンマ(,)」「改行(<CR>、<LF>)」などの制御文字を含まない、という前提条件があります。

ダブルクォートで囲まない場合。「山田」「太郎」「値の改行、カンマやダブルクォートは削除します。」が値になる
山田,太郎,値の改行、カンマやダブルクォートは削除します。

 もしこれらが値に含まれる場合は、以下のルールを守ります。

  1. 値をダブルクォートで囲むこと。
  2. 値内のダブルクォートは二重化("→"")すること。
ダブルクォートで囲む場合
"山田","太郎","値に
改行や,カンマや""ダブルクォートが含まれても問題ありません。"

 値に改行が含まれているCSVをテキストエディタで見ると不正な形式に見えますが、ダブルクォートで囲まれていれば、問題ありません。

 まれにCSVの方言で\エスケープを行うことがあります。

\エスケープを行う特殊な例
"山田","太郎","値に改行\nや\,カンマや\"ダブルクォートが含まれても問題ありません。"

 この方言はあまり普及していませんので、利用するのは避けましょう。

データ交換時のポイント

どれが標準か?

 紹介したようにCSV形式にはいくつものパターンがあります。その中でも標準と呼べるのは以下のパターンです。

  • 区切り文字はカンマ
  • ダブルクォートで囲み、値内のダブルクォートは二重化
  • ヘッダ行は付けない(ただし、データをExcelで利用する場合は付ける)

 自分がデータを「渡す側」ならばこのパターンを守り、「受け取る側」ならば個別に取り決めをする必要があります。

データ交換に必要な取り決め

 CSV形式でデータ交換を行う場合は、必ず以下の項目の取り決めを行ってください。

  1. 文字コード
  2. 改行コード
  3. ヘッダ行の有無
  4. 区切り文字
  5. ダブルクォートで囲むか否か
  6. ダブルクォートで囲まない場合の値内の制御文字(ダブルクォート、カンマ、タブ、改行)の処理

 データ交換時に「文字コードが違う」「改行が含まれている」「データにヘッダが入ってしまった」という失敗をよく聞きます。ご注意を。

まとめ

 CSV形式の詳細と扱い方について説明しました。CSVはとても広く使われているのに、方言が多く、説明資料も少なく、初心者の失敗談に事欠きません。本稿が皆さまのお役に立てれば幸いです。

参考資料

  1. RFC4180
    カテゴリが「Informational」、情報提供目的ですが、CSVの公式仕様と考えてよいです(CSVは公式仕様として標準化されていません。また、される予定もありません)。
  1. RFC4180(日本語訳)
    RFCの日本語訳です。
  1. How To:The Comma Separated Value (CSV) File Format
    CSVの仕様、解析、XMLへの変換について説明しています。
修正履歴

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
特集記事連載記事一覧

もっと読む

この記事の著者

佐藤 龍之介(サトウ リュウノスケ)

某SIer にて、主にWeb系開発プロジェクトに従事。 è¶£å‘³ã¯ãƒ©ãƒ¼ãƒ¡ãƒ³é£Ÿã¹æ­©ãã€‚ 

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/2364 2008/08/26 13:14
" ); }

おすすめ

アクセスランキング

  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」 NEW
  2. 2
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  3. 3
    「CUDA」 ~マンガでプログラミング用語解説
  4. 4
    2024年の提示年収が高いプログラミング言語は? paiza調査によるランキングが発表
  5. 5
    計測と改善をひたすら繰り返したら、年間コストを1億円削減した──不確実性の高いプロジェクトに挑む
  1. 6
    ガートナー、日本企業が2025年に向けて押さえておくべきインフラストラクチャとオペレーションのトップトレンドを発表
  2. 7
    「正解のない仕事」に備える効率的な学び方とは? エンジニアリングマネージャーが認知科学と共に紐解く
  3. 8
    約9割の企業がIT人材不足を実感、「プロリア プログラミング」による調査によって明らかに
  4. 9
    健全なソフトウェア設計の第一歩! 既存のPHPソースコードからクラス図を自動生成しよう
  5. 10
    AWS、「Data Exports for FOCUS 1.0」の一般提供を開始 NEW

アクセスランキング

  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」 NEW
  2. 2
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  3. 3
    「CUDA」 ~マンガでプログラミング用語解説
  4. 4
    2024年の提示年収が高いプログラミング言語は? paiza調査によるランキングが発表
  5. 5
    計測と改善をひたすら繰り返したら、年間コストを1億円削減した──不確実性の高いプロジェクトに挑む
  6. 6
    ガートナー、日本企業が2025年に向けて押さえておくべきインフラストラクチャとオペレーションのトップトレンドを発表
  7. 7
    「正解のない仕事」に備える効率的な学び方とは? エンジニアリングマネージャーが認知科学と共に紐解く
  8. 8
    約9割の企業がIT人材不足を実感、「プロリア プログラミング」による調査によって明らかに
  9. 9
    健全なソフトウェア設計の第一歩! 既存のPHPソースコードからクラス図を自動生成しよう
  10. 10
    AWS、「Data Exports for FOCUS 1.0」の一般提供を開始 NEW
  1. 1
    ITエンジニア本大賞2025、投票締切直前! みんなで選んだ歴代の大賞本を振り返って一挙紹介
  2. 2
    Python 3.13の新機能、対話型インタプリタの機能強化や高速化などを解説
  3. 3
    VSCodeをドキュメント作成に活用――テキストエディタ、Markdownエディタの設定と拡張機能を解説
  4. 4
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  5. 5
    「CUDA」 ~マンガでプログラミング用語解説
  6. 6
    今後生成AIとどう向き合うべきなのか? 現場のエンジニアと研究者が最新研究事例から語り合う
  7. 7
    2024年12月に開催される注目のITエンジニア向けカンファレンス5選
  8. 8
    日本在住の英語を話すソフトウェア開発者、年収の中央値は950万円に
  9. 9
    Vue.js3.4~3.5の新機能をまとめて紹介! 新しいAPIやSSRの改善
  10. 10
    PHPパッケージ管理ツール「Composer」の処理の仕組みを見てみよう!

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

メールバックナンバー

アクセスランキング

  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」 NEW
  2. 2
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  3. 3
    「CUDA」 ~マンガでプログラミング用語解説
  4. 4
    2024年の提示年収が高いプログラミング言語は? paiza調査によるランキングが発表
  5. 5
    計測と改善をひたすら繰り返したら、年間コストを1億円削減した──不確実性の高いプロジェクトに挑む
  1. 6
    ガートナー、日本企業が2025年に向けて押さえておくべきインフラストラクチャとオペレーションのトップトレンドを発表
  2. 7
    「正解のない仕事」に備える効率的な学び方とは? エンジニアリングマネージャーが認知科学と共に紐解く
  3. 8
    約9割の企業がIT人材不足を実感、「プロリア プログラミング」による調査によって明らかに
  4. 9
    健全なソフトウェア設計の第一歩! 既存のPHPソースコードからクラス図を自動生成しよう
  5. 10
    AWS、「Data Exports for FOCUS 1.0」の一般提供を開始 NEW

アクセスランキング

  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」 NEW
  2. 2
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  3. 3
    「CUDA」 ~マンガでプログラミング用語解説
  4. 4
    2024年の提示年収が高いプログラミング言語は? paiza調査によるランキングが発表
  5. 5
    計測と改善をひたすら繰り返したら、年間コストを1億円削減した──不確実性の高いプロジェクトに挑む
  6. 6
    ガートナー、日本企業が2025年に向けて押さえておくべきインフラストラクチャとオペレーションのトップトレンドを発表
  7. 7
    「正解のない仕事」に備える効率的な学び方とは? エンジニアリングマネージャーが認知科学と共に紐解く
  8. 8
    約9割の企業がIT人材不足を実感、「プロリア プログラミング」による調査によって明らかに
  9. 9
    健全なソフトウェア設計の第一歩! 既存のPHPソースコードからクラス図を自動生成しよう
  10. 10
    AWS、「Data Exports for FOCUS 1.0」の一般提供を開始 NEW
  1. 1
    ITエンジニア本大賞2025、投票締切直前! みんなで選んだ歴代の大賞本を振り返って一挙紹介
  2. 2
    Python 3.13の新機能、対話型インタプリタの機能強化や高速化などを解説
  3. 3
    VSCodeをドキュメント作成に活用――テキストエディタ、Markdownエディタの設定と拡張機能を解説
  4. 4
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  5. 5
    「CUDA」 ~マンガでプログラミング用語解説
  6. 6
    今後生成AIとどう向き合うべきなのか? 現場のエンジニアと研究者が最新研究事例から語り合う
  7. 7
    2024年12月に開催される注目のITエンジニア向けカンファレンス5選
  8. 8
    日本在住の英語を話すソフトウェア開発者、年収の中央値は950万円に
  9. 9
    Vue.js3.4~3.5の新機能をまとめて紹介! 新しいAPIやSSRの改善
  10. 10
    PHPパッケージ管理ツール「Composer」の処理の仕組みを見てみよう!