Why Nostr? What is Njump?
2023-03-25 04:23:40
in reply to

s_ota on Nostr: Scaling Law ...

Scaling Law は、計算資源(FLOPS)、パラメータ(NNの大きさ)、データセット(Wikipediaなどのテキスト)を増加させると、べき乗則でスムーズに言語モデルの性能が向上するという話です。

(並列化を考慮していない)普通のアルゴリズムだと、どこかがボトルネックになってべき乗則がなりたたなくなる(グラフがフラットになる)ことが多いですが、Transformer の場合は今の所それが見つかっていない、という風に自分は理解しています。

こちらも参考になるかもしれません。

https://www.slideshare.net/DeepLearningJP2016/dlscaling-laws-for-neural-language-models
Author Public Key
npub1susumuq8u7v0sp2f5jl3wjuh8hpc3cqe2tc2j5h4gu7ze7z20asq2w0yu8