かぎゃく‐あっしゅく【可逆圧縮】
lossless圧縮
lossless圧縮とは、データを全く損なわずに復元できるような圧縮方式のことである。データを再び元の状態に戻せるところから、可逆圧縮とも呼ばれる。
テキストデータやプログラムのソースコードなどは、データがひとつでも変わると内容もはっきりと変わってくる。特にプログラムの場合、わずかな欠損が致命的なエラーを引き起こす可能性もきわめて大きい。これらのデータは内容が完全に保たれた状態で復元できる可逆圧縮が必要不可欠であるといえる。事実、ファイル全般を扱う汎用の圧縮プログラムはすべてlossless圧縮で管理されている。
lossless圧縮に対して、データは多少損なわれるが大幅な圧縮が可能である圧縮方式は非可逆圧縮(ロッシー圧縮)と呼ばれる。非可逆圧縮は主に画像データや音声データを圧縮する際に用いられる。音声や画像などのデータは、テキストデータとは異なり、内容にわずかな欠損が生じても致命的な損傷を引き起こすことがない。せいぜい画質や音質が低下する程度にとどまる。このため、多少の劣化を許すかわりに効率的に圧縮できる非可逆圧縮方式が用いられている。
可逆圧縮
出典: フリー百科事典『ウィキペディア(Wikipedia)』 (2024/03/12 00:02 UTC 版)
可逆圧縮(かぎゃくあっしゅく)とは、圧縮前のデータと、圧縮・展開の処理を経たデータが完全に等しくなるデータ圧縮方法のこと[1]。ロスレス圧縮[1](ロスレスあっしゅく)、無歪み圧縮(むゆがみあっしゅく)[2]とも呼ばれる。
アルゴリズムとしては連長圧縮、ハフマン符号、LZWなどが有名。
コンピュータ上でよく扱われるLZH、ZIP、CABや、画像圧縮形式のPNG、GIFなどが可逆圧縮である[1]。
アルゴリズム
すべてのデータを効果的に圧縮できる可逆圧縮アルゴリズムは存在しない(可逆圧縮の限界の節を参照)。そのため、データの種類によって多くのアルゴリズムが存在する。下記に主要な可逆圧縮方式を列挙する。
データ全般
- 算術符号 - エントロピー符号の一種
- ハフマン符号 - エントロピー符号の一種
- LZ77、LZ78 - 辞書式圧縮の一種
- Lempel-Ziv-Markov chain-Algorithm (LZMA) - 7z、xzで使用される
- Lempel–Ziv–Storer–Szymanski (LZSS) - WinRARでハフマン符号とともに使用される
- Lempel–Ziv–Welch (LZW) - GIF、UNIX Compressで使用される
- ブロックソート - 圧縮の前処理で使用される可逆変換
- Prediction by Partial Matching (PPM) - プレーンテキストの圧縮で使用される
- 連長圧縮
音声
- ATRAC Advanced Lossless (AAL)
- Apple Lossless (ALAC)
- FLAC
- Monkey's Audio (APE)
- MPEG-4 ALS
- MPEG-4 SLS
- Shorten (SHN)
- TTA
- WavPack
- Windows Media Audio Lossless
ラスターイメージ
- AV1 Image File Format (AVIF)
- JPEG XL - ロスレスモードあり
- JPEG XR - ロスレスモードあり
- Lossless JPEG
- Portable Network Graphics (PNG)
- QOI
- Tagged Image File Format (TIFF)
- WebP
可逆圧縮の限界
可逆圧縮アルゴリズムはすべての入力データに対して圧縮後のデータサイズが圧縮前より小さいことを保証できない。すなわち、どのような可逆圧縮アルゴリズムでも圧縮処理後にデータサイズが小さくならない入力データが存在し、また圧縮処理後にデータサイズが小さくなる入力データが存在する場合、圧縮処理後にデータサイズが大きくなる入力データも必ず存在する。前者の証明は下記の通り[3]。
- すべての入力データを小さくできるアルゴリズムの場合、アルゴリズムを繰り返して適用することでデータサイズを1ビットにできる。
- しかし、1ビットでは記録できる情報が2種類しかなく、解凍が明らかに不可能である。
- したがって、前提である「すべての入力データを小さくできるアルゴリズムが存在する」が成立しない。
後者の証明は鳩の巣原理を用いたものであり、下記の通りとなっている[3][4]。
- 「圧縮処理後にデータサイズが小さくなる入力データが存在し、圧縮処理後にデータサイズが大きくなる入力データが存在しない」と仮定する。
- 圧縮処理後にデータサイズが小さくなる入力データのうち、最も小さい入力データをFとし、そのデータサイズをMとする。Fの圧縮処理後のデータサイズをNとする(MとNの単位はビット)。
- 圧縮処理後にデータサイズが小さくなるため、N < Mである。さらに圧縮処理後にデータサイズが大きくなる入力データが存在しないため、Nビットのデータは圧縮処理後もNビットとなる。
- Nビットのデータは2N種類ある。前述のNと合わせ、圧縮処理後にNビットとなるデータは少なくとも2N+1種類存在する。
- しかしNビットのデータが2N種類しかないので、鳩の巣原理により少なくとも2種類のデータが圧縮後同じデータになり、解凍が不可能(どちらに戻すべきか判別できない)である。
- したがって最初の仮定は誤りであり、「圧縮処理後にデータサイズが小さくなる入力データが存在しない」(可逆圧縮アルゴリズムではない)か「圧縮処理後にデータサイズが大きくなる入力データが存在する」となる。
このようにすべてのデータを圧縮できるアルゴリズムは数学上存在しえないが、インターネット・バブル期にはAdam's Platform(1998年)、NearZero(2001年)などそのようなアルゴリズムを発明したと主張するベンチャーが複数存在した[3]。実際の処理では圧縮を行わず、入力データを別のフォルダにコピーし、「圧縮」された偽ファイルに置き換えただけであり、「解凍」のときは別のフォルダにコピーした入力データを元に戻しただけである[3]。
可逆圧縮アルゴリズムのベンチマークにはカルガリーコーパスが広く使われている[5][6]。サイズ、速度、メモリ使用量がトレードオフの関係にあり、たとえばデータ圧縮比が高いアルゴリズムはメモリ使用量が多い場合が多い[6]。
出典
- ^ a b c "可逆圧縮". ASCII.jpデジタル用語辞典. コトバンクより2023年9月5日閲覧。
- ^ "無歪み圧縮". 世界大百科事典. コトバンクより2023年9月5日閲覧。
- ^ a b c d Bell, Tim (28 September 2015). "Surprising Computer Science". In Brodnik, Andrej; Vahrenhold, Jan (eds.). Informatics in Schools. Curricula, Competences, and Competitions. 8th International Conference on Informatics in Schools: Situation, Evolution, and Perspectives (英語). Vol. 9378. Springer. pp. 8–9. doi:10.1007/978-3-319-25396-1. ISBN 978-3-319-25396-1. S2CID 26313283。
- ^ Sayood, Khalid, ed. (18 December 2002). Lossless Compression Handbook (Communications, Networking and Multimedia) (英語) (1 ed.). Academic Press. p. 41. ISBN 978-0-12390754-7。
- ^ 岩間大輝、石田崇、後藤正幸「アルファベットサイズが未知の情報源に対する効率的なベイズ符号化法の一考察」『第10回情報科学技術フォーラム』議事録、2011年8月22日、153頁(日本語)。
- ^ a b Mahoney, Matt (2010). "Data Compression Explained" (PDF) (英語). p. 3. 2023年9月5日閲覧。
関連項目
可逆圧縮と同じ種類の言葉
- 可逆圧縮のページへのリンク