Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
  • Loading branch information
duzx16 committed Oct 25, 2024
1 parent a4a3afe commit 31145c2
Showing 1 changed file with 3 additions and 3 deletions.
6 changes: 3 additions & 3 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -7,9 +7,9 @@ GLM-4-Voice 是智谱 AI 推出的端到端语音模型。GLM-4-Voice 能够直
![Model Architecture](./resources/architecture.jpeg)

GLM-4-Voice 由三个部分组成:
* GLM-4-Voice-Tokenizer: 通过在 [Whisper](https://github.com/openai/whisper)encoder 部分增加 vector quantization 训练得到,将连续的语音输入转化为离散的 token。每秒音频转化为 12.5 个离散 token。
* GLM-4-Voice-9B: 在 [GLM-4-9B](https://github.com/THUDM/GLM-4) 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音
* GLM-4-Voice-Decoder: 基于 [CosyVoice](https://github.com/FunAudioLLM/CosyVoice) 的 Flow Matching 模型结构重新训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个音频 token 即可开始生成,降低对话延迟
* GLM-4-Voice-Tokenizer: 通过在 [Whisper](https://github.com/openai/whisper)Encoder 部分增加 Vector Quantization 并在 ASR 数据上有监督训练,将连续的语音输入转化为离散的 token。每秒音频平均只需要用 12.5 个离散 token 表示
* GLM-4-Voice-9B: 在 [GLM-4-9B](https://github.com/THUDM/GLM-4) 的基础上进行语音模态的预训练和对齐,从而能够理解和生成离散化的语音 token。
* GLM-4-Voice-Decoder: 基于 [CosyVoice](https://github.com/FunAudioLLM/CosyVoice) 的 Flow Matching 模型结构训练的支持流式推理的语音解码器,将离散化的语音 token 转化为连续的语音输出。最少只需要 10 个语音 token 即可开始生成,降低端到端对话延迟

更详细的技术报告将在之后公布。

Expand Down

0 comments on commit 31145c2

Please sign in to comment.