つよいけど実装公開してほしい “our 200-layer model with 3.2B parameters significantly outperforms the 48-layer state-of-the-art model with 12B parameters by 5 BLEU points”

RyobotRyobot のブックマーク 2022/03/03 08:18

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

DeepNet: Scaling Transformers to 1,000 Layers

    In this paper, we propose a simple yet effective method to stabilize extremely deep Transformers. Specifically, we introduce a new normalization function (DeepNorm) to modify the residual connectio...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう