ソルトレイクシティのSnowbirdで開催されたDCCに行ってきました
最近のアメリカは出入国検査が厳しくなっているときいていましたが、確かに厳しかったです。荷物に鍵をかけてはいけないし、いろいろと怪しまれて検査に時間がかかります。入国時に1時間ぐらいかかりました。ソルトレイクシティについたときは雨で、Snowbirdについたときにはものすごい雪になっていました。レセプションでは、ヨーロッパの特許屋の人達となぜか機械翻訳について話す。
泊まったのはThe Cliffというところで、結構いいところでした。おいしかったし、ネット使えたし。Snowbirdはスキーの名所ということで、学会だけ出て帰ったらもったいないということで、学会が終わって残りの半日でスキーして、コースをまわれるだけまわってきました。レンタルはスキー板と靴だけしかできないということで、普段着ですべってきた無無計画ぶり。前日まで記録的な大雪だっただけに雪もいい感じで眺めもよく、楽しめました。
日本に帰るときにソルトレイクシティからサンフランシスコへ行くところで、飛行機が遅れて、サンフランシスコで駆け込み乗機。すごい危なかった。
初アメリカで感じたのは、英語は本気を出されるとほとんど聞き取れないということと、それと同時に聞き取れなくてもそんなに問題ではないということ。変な意味、日ごろしていたガイドの成果が。ご飯はまぁまぁおいしかったですが毎日ビュッフェであきました。時差ボケは最後まで直らなかった。
DCCは、圧縮関連で大きな学会の一つであり、圧縮と名のつくものなら何でも発表されてます。イメージ、音楽、映像圧縮が多く、純粋なテキスト圧縮は少なくなってました。
--
学会で面白かった話。
A.Moffatの"Binary Codes for Non-Uniform Sources" linkでは、整数符号化における復号スピードと圧縮率を両立した新しい整数符号法を提案してました。整数を符号化する場合は、unaryでこれから符号化するbit長さ、binaryでその実際の符号語を表現し符号化するのが基本ですが、彼の提案では多くの場合連続する整数値が似ている値なので、このunaryを隣合うN個の要素ずつのmaxをとって表現しようというもの。たとえば符号しようとしている整数(>=0)が3,5,2,9のときunary(lg(n+1))は2,3,2,4となりますがN=2の時は3,4、N=4の時は4を符号化します。maxをとっているのでbinary符号化の時に少し無駄が生じますがそれでもunaryが減るメリットが大きい。しかも連続してN個の復号でunaryは復号する必要がないので速い。このN個まとめた列をさらに再帰的に同じ整数符号化を用いて符号化します。(Nは4,16,64・・と増やしていくので大きなデータでも階層は3,4ぐらい)。実装は上のリンク先から手に入ります。
E.Bergmanの"Fast decoding of prefix encoded texts"は、Huffman法などのprefix encodの復号の高速化の提案。prefix codeの復号は木をたどるのではなく実際は表を使って行い、圧縮対象アルファベットを確率が大きい順にソートできるのであればcanonical huffman法が使えて、そうでなければ、Huffman木の各節点を状態だと考えて固定bit数を読み込んだとき、次にどの状態に遷移するかのオートマトンとして復号できることは知られています。Bergmanはこのオートマトンがものすごく大きくなってしまう問題点を指摘し、この状態を深さがM以下の節点だけに定義しそれ以外に遷移するような場合は bitを巻き戻す方法を提案してました。こうすると復元はちょっと遅くなりますが、表は小さくなって、実用的という話です。
F.Heklandの"Using 2:1 Shannon Mapping for Joint Source-Channel Coding"は歪み有り圧縮(転送にノイズ有り)の符号法の話。入力が2次元、それを1次元で情報を伝送し、復元側でまた2次元のデータとして取り出す問題で、1次元のところでノイズが入りレートが決められてます。このとき、2次元から1次元へのマッピングにアルキメデスの螺旋(この左)を使うというもの。2次元中の点をこのアルキメデスの螺旋の一番近い点で近似し、Θを伝送すると、これがかなり転送限界に近いということが理論的に解析されてました。
D.Chenの"Optimized Prediction for Geometry Compression of Triangle Meshes"はポリゴンデータの圧縮の話。ポリゴンデータは各点の三次元データとどの点同士がつながっているかのトポロジー情報からなっており、前者の圧縮が難しいことが知られています。現状知られている方法では、三角形を折り返して次の三次元データを予測し符号化するもの。彼の発表ではどのような順番で予測すれば最適に符号化できる問題かをMST問題に帰着するというもの。
自分のも英語を直して近くアップします。