2024-01-01から1年間の記事一覧

talkbank/callhomeの日本語音声をwav形式で保存する

AI

開発環境 セットアップ 実行 開発環境 python 3.9 uv セットアップ ライブラリをインストールします uv pip install datasets[audio] soundfile pydub 実行 以下でデータセットをダウンロードして、wav形式で保存します from datasets import load_dataset i…

pyannote + whisperで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 実行 初めに 今回は定番のpyanonoteとwhisperで話者ダイアライゼーションを行ってみます 以下で記事のサンプルリポジトリを公開しています github.com 過去にはほかのライブラリでも試しているので、ほかにどのようなライブラ…

Wespeaker/wespeaker-voxceleb-resnet34-LMで話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ CLIから実行 Pythonのコードで実行 備考 初めに wespeakerで話者ダイアライゼーションを行ってみます。 モデルは以下です huggingface.co 以下に記事の内容のRepositoryを公開しています github.com 開発環境 windows11 python…

powerset_calibrationを使って話者ダイアライゼーションを行う

AI

初めに 開発環境 セットアップ 話者ダイアライゼーションを実行 初めに powerset_calibrationを使って音声内の話者ダイアライゼーションを行ってみます。論文によりデータセットには日本語が含まれていないため、日本語の音声に使う場合は自分で学習を行う必…

nvidia/parakeet-tdt_ctc-0.6b-jaをWindowsで動かす際のAttributeError: module 'signal' has no attribute 'SIGKILL'. Did you mean: 'SIGILL'?の対応

AI

初めに 開発環境 原因 対応方法 備考 初めに NVIDIAが公開している日本語音声向けの音声認識モデル nvidia/parakeet-tdt_ctc-0.6b-jaを Windowsで動かす際に以下のエラーが出た多ため、対応方法を記載します packages\nemo\collections\asr\models\configs\a…

reazonspeech-k2-v2を動かす

AI

初めに 開発環境 セットアップ 文字お越しの実行 初めに reazon-researchが新しい音声認識モデルを公開されていたので触ってみます ReazonSpeech v2.1をリリースしました!v2.1で追加した新しい日本語ASRモデル、ReazonSpeech-k2-v2はONNXフォーマットで提供…

S3Tokenizerを動かす

AI

初めに 開発環境 セットアップ 実行 初めに CosyVoiceの教師あり音声トークナイザーに関するコードが出ていなかったため issue、以下のRepositoryにて再現実装が行われました。こちらを動かしていきます github.com 以下でライブラリのverを固定したReposito…

DNSMOSで音声評価を行う

AI

初めに 開発環境 DNSMOSについて 環境構築 音声ファイルの評価 初めに AI声づくり技術研究会 アドカレ 12日目です。 今回は 音声合成におけるデータセット作成の一つの重要な要素である データセットの音声評価について 比較的新しめの評価手法およびライブ…

WindowsでFreeze-Omniを動かす

AI

初めに 開発環境 セットアップ 音声ファイルから推論 リアルタイムのインタラクティブDemoを動かす 初めに speech to speechのライブラリの Freeze-Omniを動かしていきます。これは従来のような speech to text(STT) → text to text(LLM) → text to speech(S…

sudachipyを使って文章をひらがなに変換する

AI

初めに 開発環境 セットアップ ひらながに変換 辞書の変更 初めに TTSの学習のひとつで、文字列をすべてひらがなにしたい場合があります。その際に簡単に使える sudachiを使って処理をしてみます 以下にサンプルリポジトリを公開しています github.com 開発…

WeSpeakerで音声データ内の話者分離および話者数の特定を行う

AI

初めに 開発環境 セットアップ 話者分離の実行 初めに 最近公開された WeSpeakerを使って 音声データでいろいろ行っていきます。今回は、音声データ内の話者分離および話者数の特定を行います github.com 以下にてサンプルリポジトリを公開しています https:…

UnityでDrawLineを使って擬似的にスフィアを描画する

初めに Demo 開発環境 実装 初めに Unityでrayの当たり判定でデバッグをする際に Gizmoや Drawlineを使って行うことが多々あります。今回は Gizmoが使えない(MonoBehaviourを継承していない or 更新関数を OnDrawGizmosまで伝播できない)場合の方法として Dr…

ローカルでsmollmで動画の内容に関する推論を行う

AI

初めに 開発環境 セットアップ 動画推論 初めに 昨日以下のLLMを動かしました。 ayousanz.hatenadiary.jp 昨日のPRで動画の推論コードがマージされたので、触ってみます github.com 開発環境 Windows uv python 3.11 smollm[85a4eb2dd5dd0eb4e116264f1853ae2…

ローカルでsmollmを動かす

AI

初めに 開発環境 セットアップ デフォルトの質問 初めに 小さくて精度が高いモデルが出たので、触っていきます。TRL CLIを使ってチャットもできるみたいなのでこちらも触ってみます github.com 開発環境 smollm[1e43f0dcd76261d4317cc2ee7258fe67d151d082] W…

WindowsでsamuraiでZero-Shot Visual TrackingをCustom Videoで行う

AI

初めに 開発環境 セットアップ データの準備 Custom Videoでの推論 初めに モーション認識メモリを使用したゼロショット視覚追跡をローカルで触っていきます github.com 開発環境 Windows11 uv pyhton 3.10 セットアップ まずは環境を作っていきます uv venv…

FFmpegで連番の画像から動画を作成する

開発環境 連番画像から動画作成 開発環境 Windows11 FFmpeg N-113785-gfe340c3244-20240223 連番画像から動画作成 連番の画像があるフォルダで以下を実行 ffmpeg -framerate 30 -i %08d.jpg -c:v libx264 -r 30 -pix_fmt yuv420p output.mp4 オプションにつ…

WSL2 + dockerの容量削減方法

初めに 開発環境 方法 初めに Windowsでdockerを使った開発を行っていると容量がどんどん増えていきます。定期的に掃除をする必要があるので、やり方のメモです 開発環境 Windows11 wsl 方法 以下の記事を参考にして、既存のdocker imageを削除 docker syste…

WindowsでAudioLDM-training-finetuningでAudioLDMのfinetuningを行う

AI

初めに 開発環境 セットアップ モデル・データセットの配置 追加学習の実行 初めに 以前にtext to audioを AudioLDMを使って行いました。 ayousanz.hatenadiary.jp 今回はこの AudioLDMを事前学習モデル + データセットを使って追加学習をしていきます。 以…

AudioLDMでtext to audioを行う

AI

初めに 開発環境 セットアップ 推論 requirements.txt 初めに text to audioがいろいろある中で出てきた AudioLDMというCLAPを使って音声を生成するモデルを触ってみます github.com 開発環境 uv python 3.8 windows 11(powershell) セットアップ まずは公式…

OmniParserをDockerで動かす

AI

初めに 開発環境 詳細 初めに microsoftからスクリーンショットの内容を理解するモデルおよびライブラリが出ているので、これを触っていきます。 環境構築のために、docker環境を作っていきます github.com 以下でdocker環境をまとめたリポジトリをあげてい…

GeminiAPIを使って音声データセットのラベル付けを行う

AI

初めに 開発環境 準備 GeminiAPIを使ってラベル付けつけ 初めに 音声のラベル付けをする場合、LLMを使って文字お越しデータから行う or マルチモーダルを使って音声およびテキストからラベル付けをする方法になります。 今回は、GeminaiのAPIを使って音声お…

manga-ocrを動かす

AI

初めに 開発環境 環境セットアップ 推論 初めに 日本の漫画フォーマットに特化したOCRのライブラリがあるので動かしてみます github.com 開発環境 uv python 3.10 mange-ocr 環境セットアップ 公式のままだとエラーになるので、pyproject.toml を変更します …

Kotoba-Speech v0.1をDockerを使ってローカル環境で推論を行う

AI

初めに 開発環境 構築時の詳細 FlashAttentionのインストールについて audiocraftのインストール pytorchの古い問題 ボリュームマウントを使ったフォルダ共有 推論 初めに こちら動かしていきます。 github.com 昔にライブラリのverが合わずに諦めていたので…

boltz(Boltz-1)を使って生体分子相互作用モデリングを行う

AI

初めに 開発環境 セットアップ タンパク質とリガンド(分子)の情報から推論 結果 備考 clang不足エラー 初めに Boltz-1は、タンパク質、RNA、DNA、小分子などの生体分子の3D構造を予測することができます。面白そうなので実際に実行してみます github.com …

Style-Bert-VITS2(SBV2)でAssertionError: choose a window size 400 that is [2, 251]の対応方法

AI

初めに 開発環境 ライブラリ ver 初めに 以下の学習にて以下のエラーにて前処理が止まることがあります。こちらの対応をしていきます packages/torchaudio/compliance/kaldi.py", line 142, in _get_waveform_and_window_properties assert 2 <= window_size …

linuxのscreen環境でスクロールができない時にする対応

開発環境 現象 対応方法 開発環境 Ubuntu 22.04 現象 linuxに仮想ターミナル化するライブラリがありますが、こちらを使用時にスクロールしても上部にあるものがスクロールされないことがあります。 対応方法 ホームディレクトリにある.screenrcファイルを編…

XREALで掴めるオブジェクトの設定を行う

初めに 開発環境 詳細 オブジェクト側の設定 1. Collider 2. RIgidbody 3. NRGrabbale Object オブジェクトの登録 初めに 以下の画像のように左側に自分で追加したオブジェクトをXREAL SDKを通して掴めるようにしていきます 開発環境 Unity 2022.3.42f1 XREA…

UnityでURPのLit shaderのモデルのmaterialのOffsetをスクリプトから変更する

初めに 開発環境 実装 スクリプトからshaderのテクスチャーのプロパティについて MaterialPropertyBlockを使ってマテリアルのプロパティの取得・更新 備考 初めに テクスチャの位置を変更した実装を行う際に スクリプトから任意のタイミングで materialのoff…

sbintuitions/sarashina2-70bを動かす

AI

初めに 開発環境 準備 実行 初めに ayousanz.hatenadiary.jp 開発環境 Linux H100(80GB) 準備 以下のライブラリをインストールします pip install torch --index-url https://download.pytorch.org/whl/nightly/cu121 pip install transformers==4.46.2 bits…

UnityでOpenAIのrealtime apiで入力した音声の文字起こしを取得する方法

初めに 開発環境 実装 初めに 以下の記事でUnityでOpenAIのrealtime apiを使って音声のやり取りを行いました。今回は以下のやり取りをする際に ユーザーが入力をした音声の文字起こしを取得したい場合の設定についてです。 ayousanz.hatenadiary.jp 開発環境…