SHOEISHA iD

※旧SEメンバーシップ会員の方は、同じ登録情報(メールアドレス&パスワード)でログインいただけます

連載記事

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

CodeZine BOOKS(コードジン・ブックス)は、CodeZineの連載からカットアップした、開発現場の課題解決に役立つ書籍シリーズです。

書籍に関する記事を見る

'); googletag.cmd.push(function() { googletag.pubads().addEventListener('slotRenderEnded', function(e) { var ad_id = e.slot.getSlotElementId(); if (ad_id == 'div-gpt-ad-1659428980688-0') { var ad = $('#'+ad_id).find('iframe'); if ($(ad).width() == 728) { var ww = $(window).width(); ww = ww*0.90; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/728+","+ww/728+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/728+","+ww/728+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/728+","+ww/728+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/728+","+ww/728+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(90*ww/728)+"px;width:"+728+"px;}", 0 ); } else { if ($(window).width() < 340) { var ww = $(window).width(); ww = ww*0.875; var style = document.createElement("style"); document.head.appendChild( style ); var sheet = style.sheet; sheet.insertRule( "#div-gpt-ad-1659428980688-0 iframe {-moz-transform: scale("+ww/320+","+ww/320+");-moz-transform-origin: 0 0;-webkit-transform: scale("+ww/320+","+ww/320+");-webkit-transform-origin: 0 0;-o-transform: scale("+ww/320+","+ww/320+");-o-transform-origin: 0 0;-ms-transform: scale("+ww/320+","+ww/320+");-ms-transform-origin: 0 0;}", 0 ); sheet.insertRule( "#div-gpt-ad-1659428980688-0 div{ height:"+(180*ww/320)+"px;width:"+320+"px;}", 0 ); } } } }); }); } else { document.write('
'); document.write('
'); }
正規表現エンジンを作ろう

正規表現エンジンを作ろう (4)

正規表現の構文木からNFAを作る

  • X ポスト
  • このエントリーをはてなブックマークに追加

 正規表現は、特に文字列操作が中心となるWEB分野におけるプログラミングにおいて、なくてはならない重要な機能です。本稿では正規表現を解釈するエンジンを実際に実装し、正規表現エンジンがどのように動いているのかを解説します。第4回は、各正規表現の演算がどのようにNFAで表現されるかを解説し、この構文木をInterpreterパターンに対応させます。

  • X ポスト
  • このエントリーをはてなブックマークに追加

はじめに

 こんにちは。hirataraです。

 前回は、正規表現文字列をコンパイルし、構文木を作成する部分までを実装しました。今回は各正規表現の演算がどのようにNFAで表現されるかを解説し、この構文木をInterpreterパターンに対応させます。

対象読者

  • 正規表現をもっと知りたい方
  • 情報科学分野に興味がある方
  • 正規表現エンジンを実装する必要がある方

NFA変換のための道具作り

 前回の記事により、入力文字列から構文解析を終えた構文木を作ることができました。今手にしている構文木は、例えば以下のような物です。

a|(bc)*の構文木(図)(再掲)
構文木
a|(bc)*の構文木(コード)(再掲)
Union(
    Character('a'), 
    Star(
        Concat(
            Character('b'), 
            Character('c')
        ) 
    ) 
)

 次のステップでは、この構文木がInterpreterパターンに対応するよう、各ノードにassembleメソッドを実装します。ツリーを潜りながらこのメソッドを再帰的に呼ぶことで、NFAへの変換を実現します。

 実装に入る前に、まずは組み立てに必要な道具を揃えましょう。各ノードから共通して使われるクラスである、ContextクラスとNFAFragmentクラスを導入します。

Contextクラス

 Contextクラスは、NFAの変換時に共有する情報のコンテナです。NFAを作成するには、状態を表す整数値を一意に生成する必要があります。そこで、Contextオブジェクト内の_state_countフィールドに整数値を保持し、generate_stateメソッドでカウントアップしながら一意の値を生成します。

Contextクラス
class Context(object):
    def __init__(self):
        self._state_count = 0

    def new_state(self):
        self._state_count += 1
        return self._state_count

NFAFragmentクラス

 NFAFragmentは、NFAの構成部品となるクラスです。NFAの一部分を表現しており、自由に組み合わせて繋げられる部品です。また、buildメソッドを呼ぶことで、第2回で実装したNondeterministicFiniteAutomatonオブジェクトに変換することが可能です。

 以後の説明では、以下の図をNFAFragmentインスタンスのイメージとして利用します。

フラグメント
フラグメント

 四角で囲まれている部分がNFAFragmentを表します。外から矢印が向いている丸が初期状態で、二重丸で示されているのが受理状態です。初期状態は一つですが、受理状態は複数存在しうるので、図中では2つ書いています。その他の状態の丸や遷移の矢印は、この表記においては省略しています。

コンストラクタとフィールド定義

 以下がNFAFragmentが持つフィールドです。

NFAFragmentクラス(1)
class NFAFragment(object):
    def __init__(self):
        self.start   = None  # æ•´æ•°åž‹
        self.accepts = None  # frozensetåž‹
        self.map     = dict()

 NondeterministicFiniteAutomatonクラスと同様に、初期状態を表すstartと受理状態の集合を表すacceptsをフィールドとして持っています。NFAを表すにはあともう一つ、遷移関数が必要でした。NFABuilderはNFAの組み立てに使う部品なので、自由に変更をしやすいことが求められます。そこで、変更をしにくいfunction型としてではなく、代わりに変更が容易なdict型を利用して遷移関数を表します。self.mapが、この遷移関数に該当します。

 self.mapは、(状態, 入力文字)のタプルをキーとし、次に遷移する状態の集合を値として持ちます。これはちょうどNFAの遷移関数の引数と戻り値と一致する定義になってますので、self.mapをnfa.transitionの関数の形に変更するのは簡単です。

フラグメントの演算

 次に、フラグメントの組み立てに必要なメソッドを作ります。

 まずは、connectメソッドです。このメソッドは、2つの状態from_とtoを受け取り、文字charによってこの2つの状態を接続します。もっと具体的に言うと、フラグメントの遷移関数に、from_からcharによってtoへ遷移する遷移を付け加える、と言うことです。

 遷移関数は dict型のmapフィールドによって表現されていますので、ここに該当する遷移を表すエントリーを追加することで遷移矢印の追加を実現できます。

NFAFragmentクラス(2)
    def connect(self, from_, char, to):
        slot = self.map.setdefault( (from_, char), set() )
        slot.add(to)

 次に、new_skeltonメソッドですが、このメソッドはフラグメントの新しい骨組みを作るのに使います。このメソッドを呼ぶと、現在のフラグメントと同じ状態と遷移関数を持つフラグメントが生成されます。ただしこのメソッドでは、初期状態(start)と受理状態(accepts)はコピーしませんので、自分で設定する必要があります。

NFAFragmentクラス(3)
    def new_skelton(self):
        # コピーして返す
        new_frag = NFAFragment()
        new_frag.map = deepcopy(self.map)
        return new_frag

 最後に、 特殊メソッドである__or__を定義しています。この定義により、2つのフラグメントfragment1とfragment2を、 | 演算子に よってfragment1 | fragment2のように合成することができます。合成されてできる新しいNFAFragmentは、fragment1とfragment2の遷移関数を併せた遷移関数を持ちます。ただし、この演算も先ほどのnew_fragmentメソッドと同様に、初期状態と受理状態はコピーしません。

NFAFragmentクラス(4)
    def __or__(self, frag):
        new_frag = self.new_skelton()
        for k, v in frag.map.iteritems():
            new_frag.map[k] = v.copy()

        return new_frag

 この演算を遷移図で考えると、矢印を保持したまま2つのフラグメントを1つの遷移図中に移すと言うことを表します。ただしこの時点ではまだ、2つのフラグメントを結ぶ矢印は存在していません。 | 演算子で合成した後、それぞれのフラグメント間をまたぐ2つの状態に対してconnectメソッドを呼ぶことで、2つのフラグメントを合体させることができます。

フラグメントからNFAを作成

 最後に、組み立て終わってからNFAを作成するメソッドであるbuildメソッド の実装です。

NFAFragmentクラス(5)
    def build(self):
        map_ = self.map
        def transition(state, char):
            return frozenset(map_.get( (state, char), []))

        return nfa.NondeterministicFiniteAutomaton(
            transition,
            self.start,
            self.accepts
            )

 NFAFragmentオブジェクトは、NondeterministicFiniteAutomatonオブジェクトと同様にstart、acceptsを持っていますので、これはこのままNondeterministicFiniteAutomatonクラスのコンストラクタへ渡します。遷移関数は、dict型からfunction型に変換する必要があります。これは、self.mapフィールドを内部に保持するtransitionと言う名前のクロージャとして実装しています。中を見てわかるように、引数をそのままmapフィールドのキーとして使い、mapフィールドのバリュー値を戻り値として返却するだけの単純な関数です。

会員登録無料すると、続きをお読みいただけます

新規会員登録無料のご案内

  • ・全ての過去記事が閲覧できます
  • ・会員限定メルマガを受信できます

メールバックナンバー

次のページ
各ノードの実装

この記事は参考になりましたか?

  • X ポスト
  • このエントリーをはてなブックマークに追加
正規表現エンジンを作ろう連載記事一覧

もっと読む

この記事の著者

hiratara(ヒラタラ)

1977年に苫小牧市で生まれる。北海道大学理学部数学科卒。小学生の頃、両親に買い与えられたMZ-2500でプログラミングを始めた。学生時代、CGIの自作に没頭し、それ以降WEB開発の魅力に憑かれる。社会人になっても数学好きは変わらず、専門書を買い集めるのが最近の趣味。id:hirataraにてblogを執筆...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この記事は参考になりましたか?

この記事をシェア

  • X ポスト
  • このエントリーをはてなブックマークに追加
CodeZine(コードジン)
https://codezine.jp/article/detail/3164 2008/11/26 14:00
" ); }

おすすめ

アクセスランキング

  1. 1
    NVIDIA、コンパクトな生成AIスーパーコンピューターを発表 NEW
  2. 2
    管理職の24.1%、今後管理職を「続けたくない」と回答。理由は「責任やストレス」が最多に
  3. 3
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  4. 4
    「CUDA」 ~マンガでプログラミング用語解説
  5. 5
    Linuxディストリビューション「Fedora Asahi Remix 41」リリース NEW
  1. 6
    ランサーズ、「2024年必要とされたスキルランキング」を公開。「Lancers」上のデータを集計
  2. 7
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──アクションによる非同期処理の進化
  3. 8
    Amazon Bedrock、ナレッジベースにおけるRAG評価とモデル評価におけるLLM-as-a-judgeをサポート NEW
  4. 9
    Next.js 14までの進化を振り返る──App Routerを強化する新機能を解説! NEW
  5. 10
    「代替されない強み」を身に着ける覚悟はあるか──Java Champion 寺田佳央氏が経験してきた挫折とは

アクセスランキング

  1. 1
    NVIDIA、コンパクトな生成AIスーパーコンピューターを発表 NEW
  2. 2
    管理職の24.1%、今後管理職を「続けたくない」と回答。理由は「責任やストレス」が最多に
  3. 3
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  4. 4
    「CUDA」 ~マンガでプログラミング用語解説
  5. 5
    Linuxディストリビューション「Fedora Asahi Remix 41」リリース NEW
  6. 6
    ランサーズ、「2024年必要とされたスキルランキング」を公開。「Lancers」上のデータを集計
  7. 7
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──アクションによる非同期処理の進化
  8. 8
    Amazon Bedrock、ナレッジベースにおけるRAG評価とモデル評価におけるLLM-as-a-judgeをサポート NEW
  9. 9
    Next.js 14までの進化を振り返る──App Routerを強化する新機能を解説! NEW
  10. 10
    「代替されない強み」を身に着ける覚悟はあるか──Java Champion 寺田佳央氏が経験してきた挫折とは
  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  2. 2
    「CUDA」 ~マンガでプログラミング用語解説
  3. 3
    ITエンジニア本大賞2025、投票締切直前! みんなで選んだ歴代の大賞本を振り返って一挙紹介
  4. 4
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  5. 5
    2024年12月に開催される注目のITエンジニア向けカンファレンス5選
  6. 6
    日本在住の英語を話すソフトウェア開発者、年収の中央値は950万円に
  7. 7
    今後生成AIとどう向き合うべきなのか? 現場のエンジニアと研究者が最新研究事例から語り合う
  8. 8
    Vue.js3.4~3.5の新機能をまとめて紹介! 新しいAPIやSSRの改善
  9. 9
    VSCodeをドキュメント作成に活用――テキストエディタ、Markdownエディタの設定と拡張機能を解説
  10. 10
    2024年の提示年収が高いプログラミング言語は? paiza調査によるランキングが発表

イベント

CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

新規会員登録無料のご案内

メールバックナンバー

アクセスランキング

  1. 1
    NVIDIA、コンパクトな生成AIスーパーコンピューターを発表 NEW
  2. 2
    管理職の24.1%、今後管理職を「続けたくない」と回答。理由は「責任やストレス」が最多に
  3. 3
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  4. 4
    「CUDA」 ~マンガでプログラミング用語解説
  5. 5
    Linuxディストリビューション「Fedora Asahi Remix 41」リリース NEW
  1. 6
    ランサーズ、「2024年必要とされたスキルランキング」を公開。「Lancers」上のデータを集計
  2. 7
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──アクションによる非同期処理の進化
  3. 8
    Amazon Bedrock、ナレッジベースにおけるRAG評価とモデル評価におけるLLM-as-a-judgeをサポート NEW
  4. 9
    Next.js 14までの進化を振り返る──App Routerを強化する新機能を解説! NEW
  5. 10
    「代替されない強み」を身に着ける覚悟はあるか──Java Champion 寺田佳央氏が経験してきた挫折とは

アクセスランキング

  1. 1
    NVIDIA、コンパクトな生成AIスーパーコンピューターを発表 NEW
  2. 2
    管理職の24.1%、今後管理職を「続けたくない」と回答。理由は「責任やストレス」が最多に
  3. 3
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  4. 4
    「CUDA」 ~マンガでプログラミング用語解説
  5. 5
    Linuxディストリビューション「Fedora Asahi Remix 41」リリース NEW
  6. 6
    ランサーズ、「2024年必要とされたスキルランキング」を公開。「Lancers」上のデータを集計
  7. 7
    フロントエンドの定番ライブラリ「React 19」の新機能を紹介──アクションによる非同期処理の進化
  8. 8
    Amazon Bedrock、ナレッジベースにおけるRAG評価とモデル評価におけるLLM-as-a-judgeをサポート NEW
  9. 9
    Next.js 14までの進化を振り返る──App Routerを強化する新機能を解説! NEW
  10. 10
    「代替されない強み」を身に着ける覚悟はあるか──Java Champion 寺田佳央氏が経験してきた挫折とは
  1. 1
    いいエンジニアになるための2つのポイント ──元Google技術者・石原氏が説く「シリコンバレー流ソフトウェア開発術」
  2. 2
    「CUDA」 ~マンガでプログラミング用語解説
  3. 3
    ITエンジニア本大賞2025、投票締切直前! みんなで選んだ歴代の大賞本を振り返って一挙紹介
  4. 4
    デスクトップアプリを開発しよう! 「Rust」と「Tauri 2.0」の基本情報と環境整備の仕方を解説
  5. 5
    2024年12月に開催される注目のITエンジニア向けカンファレンス5選
  6. 6
    日本在住の英語を話すソフトウェア開発者、年収の中央値は950万円に
  7. 7
    今後生成AIとどう向き合うべきなのか? 現場のエンジニアと研究者が最新研究事例から語り合う
  8. 8
    Vue.js3.4~3.5の新機能をまとめて紹介! 新しいAPIやSSRの改善
  9. 9
    VSCodeをドキュメント作成に活用――テキストエディタ、Markdownエディタの設定と拡張機能を解説
  10. 10
    2024年の提示年収が高いプログラミング言語は? paiza調査によるランキングが発表