å¸¸æ™‚ç¨¼å‹•ã™ã‚‹éŸ³å£°èªè˜ã§ã®èª¤èªè˜å¯¾ç–(C#)

éŸ³å£°èªè˜ã®ç²¾åº¦ã‚’ä¸Šã’ã‚‹ãŸã‚ã®ä»•çµ„ã¿ã‚’ä½œã£ã¦è¦‹ã¾ã—ãŸã€‚

ã‚µãƒ³ãƒ—ãƒ«exe
http://rtilabs.net/files/2011_11_20/DictationFilter.exe
ã‚µãƒ³ãƒ—ãƒ«ã‚½ãƒ¼ã‚¹
http://rtilabs.net/files/2011_11_20/DictationFilter.zip

é–‹ç™ºç’°å¢ƒ: VS2010 / C# 4 / win7 64bit ultimate

ãƒ›ãƒ¼ãƒ ã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ«ã‚»ãƒ³ã‚¿ãƒ¼ãªã©ã®éŸ³å£°èªè˜ã§ã¯å¸¸æ™‚ç¨¼å‹•ã—ã¦ã„ã‚‹ã“ã¨ãŒæ±‚ã‚ã‚‰ã‚Œã¾ã™ã€‚
ã‚¨ã‚¢ã‚³ãƒ³å¤‰ãˆã‚‹ã®ã«ã€ã„ã¡ã„ã¡ãƒœã‚¿ãƒ³ã‚’æŠ¼ã—ã¦ã‚³ãƒžãƒ³ãƒ‰ã‚’ç™ºéŸ³ã™ã‚‹ãªã‚“ã¦ã‚¢ãƒ›ãªã“ã¨ã¯ã—ã¾ã›ã‚“ã€‚
ãã‚Œãªã‚‰ãƒœã‚¿ãƒ³æŠ¼ã™ã¨ãã«åŒæ™‚ã«æ‰‹ã§æ“ä½œã—ã‚ã‚ˆã£ã¦è©±ã§ã€‚

ã§ã€å¸¸æ™‚ç¨¼å‹•ã—ã¦ã„ã‚‹ãŸã‚ã€è©±ã—å£°ã‚„é›»è©±ã‚„ãƒ†ãƒ¬ãƒ“ã®éŸ³ãªã©ã®ãƒŽã‚¤ã‚ºã«ã•ã‚‰ã•ã‚Œã¾ã™ã€‚
ä¸€èˆ¬çš„ã«ç”¨ã„ã‚‰ã‚Œã‚‹ã€ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã®éŸ³å£°èªè˜ã ã¨ã€é–“é•ã£ãŸãƒžãƒƒãƒã«ãªãœã‹ä¸€è‡´ã—ã¦ã—ã¾ã†ã¨ã„ã†ç¾è±¡ãŒã‚ã‚Šã¾ã™ã€‚

ãŸã¨ãˆã°ã€ã€Œã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ã‚¿ã‚ã—ãŸã®ã¦ã‚“ãã¯ã€ã¨ã„ã†ã‚³ãƒžãƒ³ãƒ‰ãŒã‚ã£ãŸã¨ã—ã¾ã™ã€‚
ã“ã‚Œã«ã€ã€Œã‚³ãƒ”ãƒ¼ã‚ã—ãŸã®ã¦ã‚“ãã¯ã€ã¨ç™ºéŸ³ã™ã‚‹ã¨ã€ãªãœã‹ãƒžãƒƒãƒã—ã¦ã—ã¾ã„ã¾ã™ã€‚

ã“ã‚ŒãŒã€ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã®å®¿å‘½ã¿ãŸã„ãªã‚‚ã®ã§ã€ä¼¼ã¦ã„ã‚‹ã‚‚ã®ã ã£ãŸã‚‰ã€å¤šå°‘è¾ºã§ã‚‚ãƒžãƒƒãƒã—ã¾ã™ã€‚
ãã®ã¶ã‚“ã€ç™ºéŸ³ãŒè‰¯ããªã„ã¨ãã‚„ãƒŽã‚¤ã‚ºãŒã‚ã£ã¦ã‚‚ã€èžãé€ƒã—ãŒå°‘ãªã„ã®ãŒã€ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã®ç‰¹å¾´ã§ã™ã€‚

ã‚‚ã†ä¸€æ–¹ã®æ–¹æ³•ã¨ã—ã¦ã€dicticationãƒ™ãƒ¼ã‚¹ãŒã‚ã‚Šã¾ã™ã€‚
ã“ã‚Œã¯ãƒ«ãƒ¼ãƒ«ã§ã¯ãªãã€ãƒ¡ãƒ¼ãƒ«ã‚’æ›¸ãã¨ãã®ã‚ˆã†ã«ã€ä¸€èˆ¬çš„ã«æ–‡æ³•ã«åŸºã¥ã„ã¦ã€æ–‡ã‚’èªè˜ã—ã¾ã™ã€‚

ãŸã ã—ã€ãƒžãƒƒãƒçŽ‡ã¯å‡„ã¾ã˜ãä½Žãã€é “çæ¼¢ãªçµæžœã‚’è¿”ã—ã¾ã™ã€‚
å˜èªžå˜ä½ãªã‚‰ãªã‚“ã¨ã‹ãªã£ã¦ã‚‚ã€æ–‡ç« ã ã¨æœ¬å½“ã«ã‚ã¡ã‚ƒãã¡ã‚ƒã§ã™ã€‚
(ã¡ãªã¿ã«ã€mmmdagent ã§ã¯ã€libjuliusã® dicticationãƒ™ãƒ¼ã‚¹ã®èªè˜ãŒæŽ¡ç”¨ã•ã‚Œã¦ã„ã‚‹ã‚ˆã†ã§ã€mmdagentã®ãƒžãƒƒãƒçŽ‡ã®ä½Žã•ã¯ã‚³ã‚³ã‚‰ã¸ã‚“ã«åŽŸå› ãŒã‚ã‚‹ã¨æ€ã£ã¦ã¾ã™ã€‚)

ã§ã€ãƒ›ãƒ¼ãƒ ã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ«ãŒèª¤å‹•ä½œã—ã¦ã¯å›°ã‚‹ã‚ã‘ã§ã™ã€‚
é›»è©±ã‚’ã—ã¦ã„ãŸã‚‰ã€éƒ¨å±‹ã®é›»æ°—ãŒæ¶ˆãˆãŸã‚Šã€ã‚¨ã‚¢ã‚³ãƒ³ãŒã¤ã„ãŸã‚Šã—ã¦ã‚‚ã‚‰ã£ã¦ã¯ãƒ€ãƒ¡ãªã®ã§ã™ã€‚(å®Ÿè©±w)
ãã‚Œã§ã„ã¦ã€æ£ã—ã„çµæžœã«ã¯ãƒžãƒƒãƒã—ã¦ãã‚Œãªã„ã¨å›°ã‚‹ã‚ã‘ã§ã™ã€‚
ã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ã‚¿ã«ã—ã‹ã¨ã•ã‚Œã‚‹ã¨ãã‚“ã«ã‚‡ã‚Šã§ã™ã€‚

ã ã£ãŸã‚‰ã€ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã‚’ãƒ¡ã‚¤ãƒ³ã¨ã—ã¦ã€ã€ãã®ãƒŽã‚¤ã‚ºé™¤åŽ»ã« dicticationãƒ™ãƒ¼ã‚¹ã®ã‚¨ãƒ³ã‚¸ãƒ³ã‚’ä½¿ãˆãªã„ã‹ã¨æ€ã£ã¦å®Ÿè£…ã—ãŸã®ãŒã“ã‚Œã§ã™ã€‚

ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã®éŸ³å£°èªè˜ã¨ã€ãƒ‡ã‚£ã‚¯ãƒ†ã‚£ã‚±ãƒ¼ã‚·ãƒ§ãƒ³ãƒ™ãƒ¼ã‚¹ã®éŸ³å£°èªè˜ã‚’åŒæ™‚ã«èµ°ã‚‰ã›ã¾ã™ã€‚
ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã§ãƒžãƒƒãƒã—ãŸã‚‰ã€dicticationãƒ™ãƒ¼ã‚¹ã®çµæžœã‚‚è¦‹ã¦ã€dicticationã«ã‚‚ç‰¹å®šã®å˜èªžãŒãƒžãƒƒãƒå…¥ã£ãŸã‹ã‚’ã¿ã¾ã™ã€‚
ç‰¹å®šã®å˜èªžãŒå…¥ã£ã¦ã„ã‚Œã°ã€æŽ¡ç”¨ã—ã¦ã€ãƒ€ãƒ¡ã ã£ãŸã‚‰ãƒžãƒƒãƒå¤±æ•—ã¨ã—ã¾ã™ã€‚

dicticationãƒ™ãƒ¼ã‚¹ã®éŸ³å£°èªè˜ã®çµæžœã§ã€ãƒ«ãƒ¼ãƒ«ãƒ™ãƒ¼ã‚¹ã®éŸ³å£°èªè˜ã®çµæžœã‚’ãƒ•ã‚£ãƒ«ã‚¿ãƒ¼ã™ã‚‹æ„Ÿã˜ã§ã™ã€‚
ãªã‚“ã§ã€dictication filter ã£ã¦å€‹äººçš„ã«ã¯èªã‚“ã§ã„ã¾ã™ã€‚

ã‚µãƒ³ãƒ—ãƒ«ã§ã¯ã€ãƒœã‚¿ãƒ³ã§ dictication filter ã‚’ ON / OFF ã§ãã‚‹ã‚ˆã†ã«ã—ã¦ã¿ã¾ã—ãŸã€‚
ã€Œã‚³ãƒ”ãƒ¼ã‚ã—ãŸã®ã¦ã‚“ãã¯ã€ãªã©ã¨ä¼¼ãŸã‚ˆã†ã§é–“é•ã£ãŸéŸ³å£°èªè˜ã‚’è©¦ã—ã¦ã¿ã¦ãã ã•ã„ã€‚

ãƒ•ã‚£ãƒ«ã‚¿ãƒ¼ãŒæœ‰åŠ¹ã®å ´åˆã€é–“é•ã£ãŸçµæžœãŒãƒžãƒƒãƒã—ãªã„ã€ã€ãã—ã¦ã€æ£ã—ã„çµæžœã¯ãƒžãƒƒãƒã™ã‚‹ã¯ãšã§ã™ã€‚ãŸã¶ã‚“wã€‚

ã‚½ãƒ¼ã‚¹ã‚’è¦‹ã‚„ã™ãã™ã‚‹ãŸã‚ã€æ£è¦è¡¨ç¾éƒ¨åˆ†ã¯å–ã‚Šæ‰•ã£ãŸã®ã§ã€ãã£ã¡ã¯ã‚„ã‚ŠãŸã„äººã¯å‰å›žã®ã‚¨ãƒ³ãƒˆãƒªãƒ¼(正規表現で音声認識)ã‚’è©¦ã—ã¦ãã ã•ã„ã€‚

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
//using System.Speech.Recognition; ã“ã‚Œã¯windows7(vistaã‚‚ï¼Ÿ)ã‹ã‚‰é‚ªæ‚ªãªä»•æ§˜ã«ãªã£ãŸã®ã§ä½¿ã£ã¦ã¯ãªã‚‰ã¬
using SpeechLib; //éŸ³å£°èªè˜ã‚’COMã§åˆ¶å¾¡ã™ã‚‹. (Microsoft Speech Library Object)

namespace DictationFilter
{
    class SpeechRecognizer
    {
        //éŸ³å£°èªè˜ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆ
        private SpeechLib.SpInProcRecoContext RecognizerRule = null;
        private SpeechLib.SpInProcRecoContext RecognizerDictation = null;
        //è¨€èªžãƒ¢ãƒ‡ãƒ«
        private SpeechLib.ISpeechRecoGrammar RecognizerGrammarRule = null;
        private SpeechLib.ISpeechRecoGrammar RecognizerGrammarDictation = null;

        //è¨€èªžãƒ¢ãƒ‡ãƒ«ã®ãƒ«ãƒ¼ãƒ«ã®ãƒˆãƒƒãƒ—ãƒ¬ãƒ™ãƒ«ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆ.
        private SpeechLib.ISpeechGrammarRule RecognizerGrammarRuleGrammarRule = null;
        //Dictation ã§èªè˜ã—ãŸæ–‡å—åˆ—.
        private string DictationString = "";
        //å¿…ãšãƒžãƒƒãƒã—ã¦ã„ãªã‘ã‚Œã°ã„ã‘ãªã„æ–‡å—åˆ—
        private string MustMatchString = "";

        //ä¸ç¶™ã™ã‚‹ãƒ‡ãƒªã‚²ãƒ¼ãƒˆ
        public event _ISpeechRecoContextEvents_StartStreamEventHandler StartStream;           //ã‚¹ãƒˆãƒªãƒ¼ãƒ ãŒé–‹å§‹ã•ã‚ŒãŸæ™‚
        public event _ISpeechRecoContextEvents_HypothesisEventHandler Hypothesis;             //èªè˜é€”ä¸ã§ãªã‚“ã‹æ‹¾ã£ãŸæ™‚
        public event _ISpeechRecoContextEvents_RecognitionEventHandler Recognition;           //èªè˜å®Œäº†æ™‚
        public event _ISpeechRecoContextEvents_FalseRecognitionEventHandler FalseRecognition; //èªè˜å¤±æ•—æ™‚
        public event _ISpeechRecoContextEvents_EndStreamEventHandler EndStream;               //ã‚¹ãƒˆãƒªãƒ¼ãƒ çµ‚äº†æ™‚

        public event _ISpeechRecoContextEvents_RecognitionEventHandler DictationRecognition;  //Dictationã®èªè˜å®Œäº†æ™‚
        public SpeechRecognizer()
        {
            //ãƒ«ãƒ¼ãƒ«èªè˜ éŸ³å£°èªè˜ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®ç”Ÿæˆ
            this.RecognizerRule = new SpeechLib.SpInProcRecoContext();
            this.RecognizerDictation = new SpeechLib.SpInProcRecoContext();
            //ãƒžã‚¤ã‚¯ã‹ã‚‰æ‹¾ã£ã¦ãã€‚
            this.RecognizerRule.Recognizer.AudioInput = this.CreateMicrofon();
            this.RecognizerDictation.Recognizer.AudioInput = this.CreateMicrofon();

            //ã‚¤ãƒ™ãƒ³ãƒˆè¨å®š(ä¸ç¶™)
            this.RecognizerRule.Hypothesis +=
                delegate(int streamNumber, object streamPosition, SpeechLib.ISpeechRecoResult result)
                { this.Hypothesis(streamNumber, streamPosition, result); };
            this.RecognizerRule.Recognition +=
                delegate(int streamNumber, object streamPosition, SpeechLib.SpeechRecognitionType srt, SpeechLib.ISpeechRecoResult isrr)
                {
                    //ã“ã“ã§Dictationã§ãƒžãƒƒãƒã—ãŸèªžã‚’è¦‹ã¦ã€ å¿…ãšå…¥ã£ã¦ã„ãªã‘ã‚Œã°ã„ã‘ãªã„æ–‡å—åˆ—ãŒãªã‘ã‚Œã°æ¡ã‚Šã¤ã¶ã™.
                    if (    this.MustMatchString.Length >= 1 
                         && this.DictationString.IndexOf(this.MustMatchString) <= -1
                       )
                    {//æ¡ã‚Šã¤ã¶ã™.
                        this.FalseRecognition(streamNumber, streamPosition, isrr); 
                        return;
                    }
                    this.Recognition(streamNumber, streamPosition, srt, isrr); 
                };
            this.RecognizerRule.StartStream +=
                delegate(int streamNumber, object streamPosition)
                {
                    this.DictationString = ""; //é–‹å§‹æ™‚ã«å‰å›žãƒžãƒƒãƒã—ãŸæ–‡å—åˆ—ã‚’æ¶ˆã™.
                    this.StartStream(streamNumber, streamPosition); 
                };
            this.RecognizerRule.FalseRecognition +=
                delegate(int streamNumber, object streamPosition, SpeechLib.ISpeechRecoResult isrr)
                { this.FalseRecognition(streamNumber, streamPosition, isrr); };
            this.RecognizerRule.EndStream +=
                delegate(int streamNumber, object streamPosition, bool streamReleased)
                { this.EndStream(streamNumber, streamPosition, streamReleased); };


            //Dictationã§ãƒžãƒƒãƒã—ãŸæ–‡å—åˆ—. Ruleã‚ˆã‚ŠDictationã®æ–¹ãŒãƒžãƒƒãƒé †ã¯æ—©ã„ã‚‰ã—ã„ã€‚
            this.RecognizerDictation.Recognition +=
                delegate(int streamNumber, object streamPosition, SpeechLib.SpeechRecognitionType srt, SpeechLib.ISpeechRecoResult isrr)
            {
                //ãƒžãƒƒãƒã—ãŸæ–‡å—åˆ—ã®è¨˜éŒ²
                this.DictationString = isrr.PhraseInfo.GetText(0, -1, true);
                //ã‚³ãƒ¼ãƒ«ãƒãƒƒã‚¯ç”¨ã®ãƒ‡ãƒªã‚²ãƒ¼ãƒˆã‚’å‘¼ã¶.(ã“ã‚Œãã‚‰ã„ã‚ã£ã¦ã‚‚ã„ã„ã‹ãª)
                this.DictationRecognition(streamNumber, streamPosition, srt, isrr);
            };

            //è¨€èªžãƒ¢ãƒ‡ãƒ«ã®ä½œæˆ
            this.RecognizerGrammarRule = this.RecognizerRule.CreateGrammar(0);
            this.RecognizerGrammarDictation = this.RecognizerDictation.CreateGrammar(0);
        }
        //ãƒžã‚¤ã‚¯ã‹ã‚‰èªã¿å–ã‚‹ãŸã‚ã€ãƒžã‚¤ã‚¯ç”¨ã®ãƒ‡ãƒã‚¤ã‚¹ã‚’æŒ‡å®šã™ã‚‹.
        // C++ ã ã¨ SpCreateDefaultObjectFromCategoryId ãƒ˜ãƒ«ãƒ‘ãƒ¼ãŒã‚ã‚‹ã‚“ã ã‘ã©ã€C#ã ã¨ãªã„ã‚“ã ãªã“ã‚ŒãŒã€‚
        private SpeechLib.SpObjectToken CreateMicrofon()
        {
            var ObjectTokenCat = new SpeechLib.SpObjectTokenCategory();
            ObjectTokenCat.SetId(@"HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Speech\AudioInput");
            var token = new SpeechLib.SpObjectToken();
            token.SetId(ObjectTokenCat.Default);

            return token;
        }

        //ãƒ«ãƒ¼ãƒ«ã‚’è¿½åŠ ã™ã‚‹
        public void SetString(string str)
        {
            //ç¾åœ¨ã®ãƒ«ãƒ¼ãƒ«ã‚’ã™ã¹ã¦æ¶ˆã™.
            this.RecognizerGrammarRule.Reset(0);
            //è¨€èªžãƒ¢ãƒ‡ãƒ«ã®ãƒ«ãƒ¼ãƒ«ã®ãƒˆãƒƒãƒ—ãƒ¬ãƒ™ãƒ«ã‚’ä½œæˆã™ã‚‹.
            this.RecognizerGrammarRuleGrammarRule = this.RecognizerGrammarRule.Rules.Add("TopLevelRule",
                SpeechRuleAttributes.SRATopLevel | SpeechRuleAttributes.SRADynamic);

            //æ–‡å—åˆ—ã®è¿½åŠ .
            this.RecognizerGrammarRuleGrammarRule.InitialState.AddWordTransition(null,this.MustMatchString + str);

            //ãƒ«ãƒ¼ãƒ«ã‚’åæ˜ ã•ã›ã‚‹ã€‚
            this.RecognizerGrammarRule.Rules.Commit();
            //éŸ³å£°èªè˜é–‹å§‹ã€‚(ãƒˆãƒƒãƒ—ãƒ¬ãƒ™ãƒ«ã®ã‚ªãƒ–ã‚¸ã‚§ã‚¯ãƒˆã®åå‰ã§ SpeechRuleState.SGDSActive ã‚’æŒ‡å®šã™ã‚‹.)
            this.RecognizerGrammarRule.CmdSetRuleState("TopLevelRule", SpeechRuleState.SGDSActive);

            //Dictationãƒ™ãƒ¼ã‚¹ã®éŸ³å£°èªè˜ã‚‚ã‚¹ã‚¿ãƒ¼ãƒˆ.
            this.RecognizerGrammarDictation.DictationSetState(SpeechRuleState.SGDSActive);
        }

        //çµ¶å¯¾å…¥ã£ã¦ã„ãªã„ã¨ã„ã‘ãªã„æ–‡å—åˆ—
        public void SetMustMatchString(string str)
        {
            this.MustMatchString = str;
        }
    }
}