3進法1桁分の情報量はトリット(trit = trinary digit)っていうんですって。1トリットの大規模言語モデルって言えるわけね

SampoSampo のブックマーク 2024/02/29 17:49

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Microsoftが1.58ビットの大規模言語モデルをリリース、行列計算を足し算にできて計算コスト激減へ

    Microsoftの研究チームがモデルのウェイトを「-1」「0」「1」の3つの値のみにすることで大規模言語モデルの計算コストを激減させることに成功したと発表しました。 [2402.17764] The Era of 1-bit LLMs: All Larg...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう