Llama3.1の軽量サイズ(80億パラメタ)を1000ドルPCで動かし、どの程度まともな会話ができるのかを実験してみた。ある程度の応答速度が得られるなら、ローカルPC上で音声認識ー>AI推論ー>音声合成まで行う会話アプリを実装したい、というのが私の野望だ。かなり難易度は高いが、AIのコーディング能力を借りれば私でもできるかもしれない。今回の実験はその第一段階である。 使用モデル Meta AI の Llama 3.1 をベースに、日本語タスク性能をファインチューニングしたモデルをHODACHIさんが公開している。今回は、Llama-3.1-8B-EZO-1.1-itの8ビット量子化版を使用し…