並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 22 件 / 22件

新着順 人気順

speech_to_textの検索結果1 - 22 件 / 22件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

speech_to_textに関するエントリは22件あります。 pythonAItext などが関連タグです。 人気エントリには 『GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog』などがあります。
  • GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog

    この記事はenechain Advent Calendar 2024の14日目の記事です。 はじめに こんにちは。enechainで統計・機械学習モデルの構築やLLM(大規模言語モデル)の活用推進を担当している@udon_tempuraです。 私達のチームでは、以前紹介した会議動画要約のノウハウを活用し、 社内用の動画・音声文字起こしツールを構築・運用しています。 本記事では、その精度向上の仕組みについて紹介します。 実装も比較的少なく実現できたため、セキュリティなどの関係により内製で文字起こしを構築している方々の参考になれば幸いです。 はじめに 背景と課題 システム要件 システム実装 アーキテクチャ 入力データ形式 ドメイン固有用語の管理 処理フロー Cloud Speech-to-Textによる文字起こし Gemini 1.5 Flashによる認識処理 Gemini 1.5 Proによ

      GeminiとSpeech-to-Textで実現する高精度な文字起こし - enechain Tech Blog
    • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

      OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は、ASDFを使ってPythonのバージョンを使い分けており、今回使用するのは、miniforge3-4.10.3-10です。Python 3.9.13が動作しています。 まず、仮想環境を作ります。miniforgeを使っていながらPython標準のvenvを使っていました。(あまり意識して

        OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
      • Speech-to-Text Webcam Overlay

        *認識結果が確定したタイミングで反映されます。テキストの編集・コピーも可能です。 **認識中にEnterキーを押すと,認識を止めて文を区切ることができます。日本語の場合は文末に句点が付与されます。 よくある質問・ソースコード: GitHub 音声認識は Web Speech API を利用しています。 カメラやマイクが機能しないとき → ページの再読み込みや,ブラウザの設定を確認してください: Chrome ヘルプ 「ログをダウンロード」でダウンロードされるファイルは,アクセスしているユーザーのブラウザで生成されています。

          Speech-to-Text Webcam Overlay
        • Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG

          こんにちは、2020年新卒入社予定の山口です!修論と引越し準備とアルバイトで慌ただしい日々を過ごしています。今日は業務で触った、Google製API Google Cloud Speech-to-Text API について皆さんと共有できればと思います。 Google Cloud Speech-to-Text API とは APIを導入していく GCP側 PC側 実際に試してみる 認識モデルを変更してみる マルチチャンネルで試してみる ファイル形式・サンプリング周波数を比較してみる ナレーション音声(「本日は〜」の音声です。) 走れメロス_朗読 おわりに Google Cloud Speech-to-Text API とは Google Cloud Speech-to-Text API は名前の通り、音声データから文字起こしをするAPIです。この音声データは私たちが日頃聞いているような音声

            Google Cloud Speech-to-Text APIをいろいろ調査してみる - OPTiM TECH BLOG
          • 「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita

            「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話AWSAzureCognitiveServicesSpeechToTextGoogleCloud はじめに 2019年1月23日(木) に Microsoft 主催の Ignite The Tour : Osaka に コミュニティ登壇させていただきました。 本記事は、上記イベントで発表させていただいた LT ( ライトニングトーク ) の内容を記事にしたものです。 ※また、本記事では、3大クラウドプラットフォーム ( Azure / AWS / GCP ) の Speech To Text サービスの性能を比較し、ランク付けをさせていただいておりますが、使用する音声の録音環境、録音デバイス、その他環境の差により、当記事の検証結果と異なる場合がございます

              「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita
            • Introducing speech-to-text, text-to-speech, and more for 1,100+ languages

              Introducing speech-to-text, text-to-speech, and more for 1,100+ languages Equipping machines with the ability to recognize and produce speech can make information accessible to many more people, including those who rely entirely on voice to access information. However, producing good-quality machine learning models for these tasks requires large amounts of labeled data — in this case, many thousan

                Introducing speech-to-text, text-to-speech, and more for 1,100+ languages
              • GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ

                You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                  GitHub - 1heisuzuki/speech-to-text-webcam-overlay: Web Speech API で音声認識した結果の字幕をWebカメラ映像に重ねて表示するWebページ
                • Azure Cognitive Service Speech to Text API を調査し、Google Cloud Speech-to-Text APIと比較していく - OPTiM TECH BLOG

                  こんにちは、引越しなどの一連のゴタゴタが済んだ 2020年新卒入社予定の山口です。 今回はAzure Cognitive Service Speech to Text API(以下AST)について調査を行ったので、その結果などを報告します。またGoogle Cloud Speech-to-Text API(以下GST)と比較も行ったので、それについても記述していきます。 ASTの導入 ASTの対応ファイル形式などの調査 音声ファイル文字起こしプログラムの作成 ASTとGSTの比較 1. 実行結果の比較 2. 処理速度の比較 3. 料金面での比較 まとめ ASTの導入 今回はこのリンクの説明を元に導入をしていきます。 Azure側の設定 説明リンク Azureアカウントの作成(microsoftアカウントが必要) リソースの作成 今回は以下の画像のようにアカウントを作成しました。 リソースを

                    Azure Cognitive Service Speech to Text API を調査し、Google Cloud Speech-to-Text APIと比較していく - OPTiM TECH BLOG
                  • 田中康夫 Speech To Text Online on Twitter: "@loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2"

                    @loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2

                      田中康夫 Speech To Text Online on Twitter: "@loveyassy 「#しょぼいウイルスなのに全世界が大騒ぎ」の東浩紀(#現在ツイ垢失踪中)・三浦瑠麗@lullymiura・小林よしのり(ツイ垢不明)3賢人様の世紀の大鼎談ダイジェスト版です!… https://t.co/QXrXeOHBH2"
                    • GitHub - reriiasu/speech-to-text: Real-time transcription using faster-whisper

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - reriiasu/speech-to-text: Real-time transcription using faster-whisper
                      • 音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ

                          音声認識によるリアルタイム字幕&翻訳が可能な「Speech to Text Webcam Overlay」をZoomで使ってみた - DENET 技術ブログ
                        • GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple

                          Silero Models: pre-trained enterprise-grade STT / TTS models and benchmarks. Enterprise-grade STT made refreshingly simple (seriously, see benchmarks). We provide quality comparable to Google's STT (and sometimes even better) and we are not Google. As a bonus: No Kaldi; No compilation; No 20-step instructions; Also we have published TTS models that satisfy the following criteria: One-line usage; A

                            GitHub - snakers4/silero-models: Silero Models: pre-trained speech-to-text, text-to-speech and text-enhancement models made embarrassingly simple
                          • GitHub - coqui-ai/STT: 🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - coqui-ai/STT: 🐸STT - The deep learning toolkit for Speech-to-Text. Training and deploying STT models has never been so easy.
                            • Cloud Speech-to-Text の新たな対応言語でも改良されたモデルと機能が利用可能に | Google Cloud 公式ブログ

                              ※この投稿は米国時間 2020 年 3 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。 通話分析や動画字幕の自動生成などのスピーチ インターフェースは、人が周囲とやり取りする方法を変貌させ、新たなビジネス機会を創出しています。こうした変化の原動力となり、アイデアの実現を後押ししているのが音声認識技術です。 Google Cloud では、この素晴らしい技術をできる限り広範に利用できるものにするために日々尽力しています。Google Cloud のプロダクトや機能をより多くのお客様に提供し、世界中の企業で便利にご利用いただけるようにするため、このたび、新しい機能、モデル、言語を音声入力システムに導入いたしました。 Google Cloud Speech-to-Text は、ユーザーが送信した長尺、短尺の録音やストリーミングされた音声に含まれる発言を文字変換して

                                Cloud Speech-to-Text の新たな対応言語でも改良されたモデルと機能が利用可能に | Google Cloud 公式ブログ
                              • Google Speech to Text APIを使ってブラウザでリアルタイム文字起こしする - Qiita

                                TD;TL Google Speech to Text APIとWeb Speech APIを併用することで実現する 音声検出のみWeb Speech APIを使い、文字起こし自体はGoogle Speech to Text APIを使うことで、ブラウザ文字起こしにおいてリアルタイム感と精度の高さを両立する 発端 現在開発中のプロダクトの中で、Speech to Textの仕組みを導入するために様々な方法を調べていました。 オンライン会議中の会話を文字起こししたり、アジェンダや議事録を一括で管理できるサービス「Telelogger」というサービスなのですが、コアとなる機能が会議中の会話の文字起こしです。 サービスはWebアプリケーションとして提供するため、ブラウザでの文字起こしを想定しています。 対象ブラウザをGoogle Chromeに絞った上で、最初はWeb Speech APIを試し

                                  Google Speech to Text APIを使ってブラウザでリアルタイム文字起こしする - Qiita
                                • GoogleのCloud Speech-to-Textでリアルタイムに会話の文字起こし - ASKUL Engineering BLOG

                                  はじめに 初めまして、4月からアスクルに新卒入社しました、「みわすけ」です。 新卒エンジニアとして、まだまだ勉強中ではありますが、今回ヤフーさん主催の「Yahoo! JAPAN Internal Hack Day 17」というイベントに参加させていただきました。 HackDayとは テクノロジーを、もっと身近に、もっと楽しく。Hack Dayは、ものづくりの面白さを体験する祭典です。日本最大級のハッカソンや、注目のコンテンツを揃えた体験ブースなど、盛りだくさんのイベントを毎年開催しています。(https://hackday.jp より) その中で、我々アスクルチームは会議の議事録を取る行為をエンジニアリングで解決しようとなり、24時間で開発していきました。この記事ではその中で「発言を文字起こしする」部分に使用したGoogleのCloud Sppech-to-Textの使い方について解説しま

                                    GoogleのCloud Speech-to-Textでリアルタイムに会話の文字起こし - ASKUL Engineering BLOG
                                  • 議事録担当なんてなくそうよ。Google Cloud Speech -to-Textを使ってみた

                                    はじめまして。 イノベーション本部の田中です。 ここ最近、お仕事では画像認識をやっておりますが、 今回は音声認識のお話です。 皆さん、議事録書くの面倒ではないですか? 楽をしたいなーと思い、 Googleの音声認識(Cloud Speech-to-Text)を試してみたのでご紹介します。 Cloud Speech-to-Textについて機械学習を活用して音声をテキストに変換してくれる、GoogleのAPIサービスです。 音声認識の精度が高く、多くの言語にも対応しているということで評判が良いAPIです。 詳しくは、公式サイトをご確認ください。 (https://cloud.google.com/speech-to-text/?hl=ja) 取り組み内容今回試した内容は大きく2つです。 PCのマイクから認識した音声をリアルタイムでテキストに変換変換したテキストは、Googleスプレッドシートに

                                      議事録担当なんてなくそうよ。Google Cloud Speech -to-Textを使ってみた
                                    • Speech to Text - AmiVoiceの音声認識API・SDK(アミボイス)

                                      開発者向け Speech to text AmiVoiceの高精度音声認識を あなたのサービスに AmiVoice Cloud Platformでは、機械学習の専門知識がなくとも高性能な speech to text(音声認識)をお好みのプログラム言語でアプリケーションに組み込むことが可能。音声のテキスト変換や音声入力のほか音声感情分析機能も簡単に実装いただけます。

                                        Speech to Text - AmiVoiceの音声認識API・SDK(アミボイス)
                                      • 「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita

                                        「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話AWSAzureCognitiveServicesSpeechToTextGoogleCloud はじめに 2019年1月23日(木) に Microsoft 主催の Ignite The Tour : Osaka に コミュニティ登壇させていただきました。 本記事は、上記イベントで発表させていただいた LT ( ライトニングトーク ) の内容を記事にしたものです。 ※また、本記事では、3大クラウドプラットフォーム ( Azure / AWS / GCP ) の Speech To Text サービスの性能を比較し、ランク付けをさせていただいておりますが、使用する音声の録音環境、録音デバイス、その他環境の差により、当記事の検証結果と異なる場合がございます

                                          「桃太郎デスマッチ」 ー Azure / AWS / GCP 学習済みAIサービスで「桃太郎」を Speech To Text してみた話 - Qiita
                                        • 2020年4月22日 FNNプライムニュース『ノーベル賞・本庶佑氏 コロナ対策に緊急提言 政府の対策で勝てるか + 韓国の良い所は見習わないと 佐藤正久参議院議員 韓国のコロナ対応を絶賛』 - 田中康夫 Speech To Text Online

                                          [佐藤正久]韓国は感染症に対する危機意識がかなり高いんです。MARSでの教訓もあるので、今回非常に感染症に対する感度、これが高い為に備蓄を含めて、あるいは態勢含めてやはり速いんです。そういう部分がやっぱり、今回我々としての、韓国の良い所は見習わないといけない。後で議論になるいろんな、PCRセンターを含めて韓国は一月からもうやってるんです。今、四月でしょ?で、もう三ヶ月の差があるんです。そのぐらい最初から危機感が高い。 * [竹内友佳]本庶さんは新型コロナウイルスとの戦いが今どういった状況にあるとご覧になっていますでしょうか。 [本庶佑]今仰ったこと、特に佐藤さんが仰ったことはその通りでね、韓国からは大変に見習うことが多いと思いますし、自衛隊、厚労省、こういったとこの連携とか、そういうことはやはりこういう場合にですね、政治家だけでなかなか判断できないから、やはり医療関係の専門家、基礎としてサ

                                            2020年4月22日 FNNプライムニュース『ノーベル賞・本庶佑氏 コロナ対策に緊急提言 政府の対策で勝てるか + 韓国の良い所は見習わないと 佐藤正久参議院議員 韓国のコロナ対応を絶賛』 - 田中康夫 Speech To Text Online
                                          • 大規模コーパスでGoogle Cloud Speech To Text APIの精度検証を行う & アップデート内容の検証 - OPTiM TECH BLOG

                                            どうもこんにちは!新型コロナウイルスの影響で卒業式が中止になった、2020年新卒入社予定の山口です。 今回はGoogle Cloud Speech-to-Text API(以下GST)を大規模コーパスで精度検証した結果と、GSTアップデートの検証内容について共有していけたらと思います。 大規模コーパスでGSTの精度検証を行う JVS (Japanese versatile speech) corpusについて 精度検証について 認識精度の比較 音量ごとによる精度の比較 アップデート検証 話者識別 句読点 2つを同時に試してみると まとめ JVS (Japanese versatile speech) corpus ライセンス表記 過去のGSTに関する記事もどうぞ tech-blog.optim.co.jp tech-blog.optim.co.jp 大規模コーパスでGSTの精度検証を行う

                                              大規模コーパスでGoogle Cloud Speech To Text APIの精度検証を行う & アップデート内容の検証 - OPTiM TECH BLOG
                                            • Researcher Breaks reCAPTCHA With Google’s Speech-to-Text API

                                              Researcher uses an old unCAPTCHA trick against latest the audio version of reCAPTCHA, with a 97 percent success rate. An old attack method dating back to 2017 that uses voice-to-text to bypass CAPTCHA protections turns out to still work on Google’s latest reCAPTCHA v3. That’s according to researcher Nikolai Tschacher, who posted a video proof-of-concept (PoC) of the attack on Jan. 2. CAPTCHA, intr

                                                Researcher Breaks reCAPTCHA With Google’s Speech-to-Text API
                                              1

                                              新着記事