カリンゴ(Caringo)と聞いてすぐにわかる方は、かなりストレージ業界に明るい方だ。カリンゴはオブジェクトストレージを実現するソフトウェアを開発すべく、2005年に創業されたITベンダー。今回は創業者の一人でもあるCTOのポール・カーペンティア氏に会社概要と技術について聞く機会を得た。
オブジェクトストレージの父が作った第3世代製品
今回話を聞いたカリンゴのポール・カーペンティア氏は、「CAS(Content Addressed Storage)の父」として知られており、現在のオブジェクトストレージの原型に当たる技術を1980年代から開発してきた。CASソフトウェアのミドルウェアとして同氏が設立したFilePool社は2000年にEMCに買収され、製品は「EMC Centera CAS」として提供されてきた。その後、同氏がより先進的なCASソフトウェアを開発すべく2005年に設立したのが、カリンゴだ。
カーペンティア氏が「第3世代」を謳うカリンゴのCASソフトウェア「CAStor」は2006年に出荷を開始し、すでにグローバルで400社以上の導入実績を持つ。特に医療・ヘルスケア分野での実績は非常に高く、研究開発分野でも大きく貢献しているという。また、CAStor自体はデルにOEM供給されており、「Dell EqualLogic DXシリーズ」として販売されている。日本では、こちらの製品の方が知名度があるだろう。
性能、拡張性、耐障害性を実現する仕組み
CAStorが提供するオブジェクトストレージの技術は、ビッグデータに最適な高い性能、拡張性、耐障害性を実現するソフトウェアで、x86サーバーのクラスター上で動作する。特定のハードウェアに依存しない点が、まず特徴といえる。
大容量の非構造データ処理に最適化されたアーキテクチャーとなっており、データはIDや名前の付けられたオブジェクト単位で管理され、磁気テープのように連続的に記録される。「オブジェクトに対するメタデータは、システム用だけではなく、ユーザー用のものも自由定義できる」(カーペンティア氏)とのこと。こうしたメタデータのカスタマイズ性が、オブジェクトストレージが医療現場で受けている理由だ。
これらのオブジェクトはクラスター上で分散して保持され、自動的にレプリケーションが行なわれる。完全性のチェックや自己障害回復などの機能も持っており、データ冗長度はきわめて高い。「リビルドに時間のかかるRAIDストレージと違って、データが分散配置されているので、ディスクの障害などでもアプリケーションからは障害に見えない」(カーペンティア氏)とのことで、障害を前提にソフトウェアでリカバリするのが、CAStorのコンセプトだ。さらにCaringo Contents Routerを用いることで、前述したメタデータに基づいた特定のルールにあわせて、遠隔地へのレプリケーションを自動化することが可能になるという。
プロトコルはクラウドストレージ用ということで、HTTPを用いる。クラスターへのアクセスは複数のノードに対しラウンドロビンによって分散され、最初にアクセスされたノードがマルチキャストによって、処理に適切なノードを選択し、HTTPリクエストのリダイレクトを行なう。各ノードはオブジェクトのインデックスをメモリ上に保持していて、目的のオブジェクトを検索する速度はノード数やオブジェクト数にかかわらず、常に200ms以下をキープするという。カーペンティア氏によると、HTTP経由で利用できる特徴を活かし、大手の通信事業者ではユーザー端末のWebブラウザから直接写真をポストする仕組みをCAStorで構築しているという。CAStorへのアクセスをHTTPだけではなく、CIFS、NFS、FTPなどで行なえるようにする「Content File Server」というNASゲートウェイも提供しており、汎用性も高い。
ビッグデータ管理を見越した自動化の追求
ペタバイトクラスになると、性能や拡張性の面でCastorのメリットはより顕著になる。カーペンティア氏は、「われわれの製品は、スケールアウトNAS、オブジェクトストレージ、クラウドストレージなどの分野で他社と競合する。しかし、NASやパブリッククラウドに比べて高い性能やスケーラビリティを確保している。容量面では磁気テープという選択肢もあるが、性能やTCOの面でCAStorは優秀だ」と述べる。また、HTTPでのAPI連携が容易な点、さまざまなアプリケーションでの実績がある点もメリットといえる。
とはいえ、CAStorの最大の魅力は「自動化」にある。CAStorはオブジェクトやクラスターの管理はもちろん、ソフトウェア設定やバージョンアップ、最適化、負荷分散まで自動化し、大容量データの管理をきわめて容易に行なえるようにしている。「1人のシステム管理者で、10PB以上のデータを管理することが可能だ」(カーペンティア氏)とのことで、ビッグデータを「絵に描いた餅」にしないための現実解を提供しているわけだ。
最新のCAStor 5.5では、最大4TBというビッグオブジェクトをサポート。また、サービスプロバイダー向けの「Caringo CloudScaler」提供やOpenStackとの連携も予定されている。大容量データを扱う国内の通信事業者も関心を示しているとのことで、事例にも注目が集まりそうだ。