サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
qiita.com/omiita
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 話題爆発中のAI「ChatGPT」の仕組みにせまる! 注意:ChatGPTはまだ論文が出ていないため、細かい箇所は不明です。本記事では公式から出た記事およびInstructGPTの論文をもとにChatGPTの仕組みを探っていきます 本記事の流れ: 忙しい方へ ChatGPTとは GPT-3 InstructGPT ChatGPT まとめと所感 参考 0. 忙しい方へ ChatGPTは、InstructGPTをベースとしたモデルだよ InstructGPTは、「人間の好みに合った文を出力するように微調整したGPT-3」だよ InstructGPTの学習では、以下の3つが重要だよ GPT-3の教師ありファインチューニング Reward Modelの学習 RLHF(=Re
追記: U-Netの中間層は常にSelf-Attentionとなります。ご指摘いただきました。ありがとうございます。(コード) オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介しています。 @omiita_atiimoもご覧ください! 世界に衝撃を与えた画像生成AI「Stable Diffusion」を徹底解説! 未来都市にたたずむサンタクロース(Stable Diffusionで生成) 2022年8月、世界に大きな衝撃が走りました。それは、Stable Diffusionの公開です。Stable Diffusionは、テキストを受け取るとそれに沿った画像を出力してくれるモデルです1。Stable Diffsuionは10億個近いパラメータ数をもち、およそ20億個の画像とテキストのペア(LAION-2B)で学習されています。これにより、Stable Diffusionは入
オミータです。ツイッターで人工知能や他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 畳み込み+Attention=最強?最高性能を叩き出した画像認識モデル「CoAtNet」を解説! 帰ってきたResNet!最新の画像認識モデル「ResNet-RS」を解説! 画像生成も畳み込まない!TransformerによるGAN「TransGAN」誕生&解説! 【決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- Vision Transformer(以下、ViT)はなぜ高い性能を叩き出せるのでしょうか。「そんなのAttentionのおかげに決まっ
1. CoAtNetの解説 1.1 畳み込みとSAの復習 コンピュータビジョンで用いられている大きな仕組みに畳み込みとSelf-Attention(=SA)があります。畳み込みではEfficientNet、SAではViTが有名ですね。EfficientNetについてはこちらの拙著記事、ViTについてはこちらの拙著記事をご参照ください。CoAtNetでは、この畳み込みとSAの良いとこ取りをしたブロックを作ることが一番の目的になっています。畳み込みとSAの式を復習しておきましょう。ここでは畳み込みの中でもDW(=Depthwise)畳み込みを取り扱います。そして、本論文では分かりやすさを優先しているのか、式の細かいところ(SAにおけるqkvの埋め込みなど)はあえて排除しているように見えるので、理解しやすいです。 1.1.1 畳み込みの式 本論文では、畳み込みの中でもDW(=Depthwise)
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 【決定版】スーパーわかりやすい最適化アルゴリズム 深層学習を知るにあたって、最適化アルゴリズム(Optimizer)の理解は避けて通れません。 ただ最適化アルゴリズムを理解しようとすると数式が出て来てしかも勾配降下法やらモーメンタムやらAdamやら、種類が多くあり複雑に見えてしまいます。 実は、これらが作られたのにはしっかりとした流れがあり、それを理解すれば 簡単に最適化アルゴリズムを理解することができます 。 ここではそもそもの最適化アルゴリズムと損失関数の意味から入り、最急降下法から最適化アルゴリズムの大定番のAdamそして二階微分のニュートン法まで順を追って 図をふんだんに使いながら丁寧に解説 し
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 2019年最強の画像認識モデルEfficientNet解説 画像認識の最新SoTAモデル「Noisy Student」を徹底解説! わずか1%のラベルでImageNet高精度「SimCLR」解説 2020年超盛り上がり!自己教師あり学習の最前線まとめ! SoTAを総なめ!衝撃のオプティマイザー「SAM」爆誕&解説! 帰ってきたResNet!最新の画像認識モデル「ResNet-RS」を解説! 2012年に登場したAlexNetが与えた衝撃に匹敵するほどの影響力を持つモデルにResNetがあります。ResNetの登場以降はWideResNetやResNeXt、DenseN
その他層の数も探索空間に入れています。ここで拡張率とは、MBConvの最初のConvでチャネル数を何倍にするかの係数のことで、こちらでより詳しく解説しています。 探索は精度$A$、ステップごとの学習時間$S$、パラメータサイズ$P$を用いて、$A\cdot S^w\cdot P^v$を最大化するように行われます。ここで$w=-0.07, v=-0.05$であり、これらの値は実験的に決定されています。 1.3.2 EfficientNetV2のアーキテクチャ 下表がEfficientNetV2のSサイズのモデルになります。 画像: "EfficientNetV2: Smaller Models and Faster Training", Tan, M., Le, Q., (2021) 比較のためにEfficientNet-B0(i.e. V1)のアーキテクチャも下に載せます。 画像: "Ef
0. 忙しい方へ CNNから完全に解放された画像生成のGANを目指したよ TransGANは生成器(G)にも識別器(D)にもTransformerのエンコーダを用いているよ TransGANで高い性能を得るには次の4つが欠かせないよ データオーギュメンテーション 超解像タスクを用いたCo-training Self-Attention(SA)の適用範囲の調整 スケールアップ STL-10では、CNNベースのGANの性能を超えState-of-the-Art(SoTA)な性能を叩き出したよ 1. TransGANの説明 1.1 Transformerエンコーダ 画像: "TransGAN: Two Transformers Can Make One Strong GAN", Jiang, Y., Chang, S., Wang, Z. (2021) TransGANはTransformerの
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! もう2020年も終わりますね。いかがお過ごしでしょうか。私は今年を積極的にアウトプットしていく年にしていたので、深層学習の論文を可能な限り読みました(それでも略読含めて150本程度だと思いますが...)。僭越ながら、今年2020年に読んだ論文たちの中から独断と偏見に基づいて面白かった論文を10個ランキング形式にてまとめます。2020年に読んだ論文なので必ずしも2020年に発表された論文とは限りません。完全なるオレオレランキングなので画像系多めです。簡単な説明に加え論文、解説記事、実装へのリンクをそれぞれに載せましたので興味ある論文があれば是非読んでみてください!それでは第10位から早速見ていきましょう! 【第10位】: "M
0. 忙しい方へ SAMは損失が最小かつその周辺が平坦であるようなパラメータを目指すよ SAMは次の3ステップだよ パラメータ$\mathbf{w}$の周辺で最大の損失をとる$\mathbf{w+\hat{\epsilon}(w)}$を求めるよ $\mathbf{w+\hat{\epsilon}(w)}$における損失を求めるよ 2.の損失に対する勾配でパラメータ$\mathbf{w}$を更新するよ SAMは一言で言ってしまえば、「パラメータ周辺での最大の損失を求めて、それが下がる方向でパラメータを更新する」ものだよ ImageNetやCIFARを含む9つの画像分類データセットでSoTAを更新したよ ラベルへのロバスト性も高いよ 1. SAMの説明 SAMは至ってシンプルです。というのも、今までは損失が最小になるパラメータを学習させていました。ただ、SAMは損失が最小かつその周りも平坦となっ
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 2020年超盛り上がり!自己教師あり学習の最前線まとめ! わずか1%のラベルでImageNet高精度「SimCLR」解説 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた! 出きたてホヤホヤ!最新オプティマイザー「AdaBelief」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 2020年に大流行した自己教師あり学習のContrastive Learningをご存知でしょうか。Contrastive Learning(以下、CL)とは言わばラベルなしデータたちだけを用いてデータの表
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! わずか1%のラベルでImageNet高精度「SimCLR」解説 出きたてホヤホヤ!最新オプティマイザー「AdaBelief」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 新たな活性化関数「FReLU」誕生&解説! 自然言語処理の王様「BERT」の論文を徹底解説 2021/02/28 SimCLRのバッチサイズに関する記述を修正 2020年に大きく盛り上がりを見せた分野に自己教師あり学習(=Self-Supervised Learning(SSL))があります。SSLとは名前の通り自分で教師を用意するような手法で、デー
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- ついにAdamを超えた!最新の最適化アルゴリズム「RAdam」解説 新たな活性化関数「FReLU」誕生&解説! 2019年最強の画像認識モデルEfficientNet解説 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! SGD+Momentum(緑)とAdam(赤)とAdaBelief(青)の比較。青が一番早く収束していることがわかります。 "AdaBelief Optimizer: Adapting Stepsizes by th
UTF-16のことをUnicodeと記しているソフトウェア(Windowsのメモ帳など)もありますのでUnicodeとあったらそれはUTF-16を使って変換したものなのだな、というふうに理解してください。 そうなってしまっている理由はこちらで解説されていました。 これでUnicodeとUTF-8の違いはバッチリですね!おわり。 読んで分かりやすかったり少しでも何か学べたと思えたら いいね や コメント をもらえるとこれからの励みになります! もう少し時間がある方へ 手計算で文字をUTF-8での符号まで計算してみましょう。 理解が一気に深まります。手順は以下。 1. 文字のコードポイントをUnicodeから見つけてくる。 2. コードポイントをUTF-8の方式で変換してみる。 Omiitaの「お」をUTF-8による符号まで変換してみます。 文字「お」のコードポイントをUnicodeから見つけ
オミータです。ツイッターで人工知能のことや他媒体の記事など を紹介していますので、人工知能のことをもっと知りたい方などは @omiita_atiimoをご覧ください! 他にも次のような記事を書いていますので興味があればぜひ! 「募ってはいるが、募集はしていない」 人たちへ GANにもオーギュメンテーションは超有効だった!DAだけでSoTA達成した最新論文を解説! GANへの新しい正則化「ICR」が期待大な件&解説 U-Netを識別器に!新たなGAN「U-NetGAN」を解説! 画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! 「Toonify Yourself!」というWebサイトをご存知でしょうか。顔の画像をアップロードすると瞬時にディズニー顔に変換してくれるというもので、Twitterなどで話題になっていたのをご覧になった方も多く居るかと思います。
0. 忙しい方へ 完全に畳み込みとさようならしてSoTA達成したよ Vision Transformerの重要なことは次の3つだよ 画像パッチを単語のように扱うよ アーキテクチャはTransformerのエンコーダー部分だよ 巨大なデータセットJFT-300Mで事前学習するよ SoTAを上回る性能を約$\frac{1}{15}$の計算コストで得られたよ 事前学習データセットとモデルをさらに大きくすることでまだまだ性能向上する余地があるよ 1. Vision Transformerの解説 Vision Transformer(=ViT)の重要な部分は次の3つです。 入力画像 アーキテクチャ 事前学習とファインチューニング それぞれについて見ていきましょう。 1.1 入力画像 まず入力画像についてです。ViTはTransformerをベースとしたモデル(というより一部を丸々使っている)ですが、
0. 忙しい方へ SLAの構成要素は次の3つだよ 結合ラベル:「元のラベル」と「適用したDA」の組み合わせを新たなラベルとしたよ アンサンブル:予測ラベルは「元の画像」と「DA適用後の画像たち」を全て考慮して出力するよ 自己蒸留:推論時にもアンサンブルの効果が得られるように、アンサンブルによる出力を模倣するような線形変換を用意するよ CIFAR10/100/TinyImageNetなど幅広いデータセットで大きなゲインを得ているよ Few-shotや不均衡データに対しても性能向上を示したよ 1. SLAの解説 SLAは、Self-Supervised Learning(=SSL)にインスピレーションを得ています。ラベル予測にはアンサンブルを用いており、また推論時のスピードを速くするために自己蒸留を用いています。SLAの説明は次の順番で行います。 Self-Supervised Learnin
(略称多すぎですね。) 0. 忙しい方へ GANにConsistency Regularizationを適用することで性能を大きく改善したよ Improved-CRは「balanced-CR + latent-CR」だよ bCRはリアル画像とフェイク画像両方にCRしたものだよ zCRはノイズ空間のCRをしたものだよ CRもICRも超絶シンプルで強力だよ CRとICRはSNとの相性が良く、他の正則化手法を大きく上回ったよ ICRはCIFAR-10(FID:9.21)とImageNet(FID:5.38)でBigGANにおけるSoTAを達成したよ "Improved Consistency Regularization for GANs", Zhao, Z., Singh, S., Lee, H., Zhang, Z., Odena, A., Zhang, H., (2020)より作成 1.
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 他にも次のような記事を書いていますので興味があればぜひ! GANにもオーギュメンテーションは超有効だった!DAだけでSoTA達成した最新論文を解説! 画像認識の定番データセットImageNetはもう終わりか パラメータ数10億!最新の巨大画像認識モデル「BiT」爆誕 & 解説 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた! 画像認識の最新SoTAモデル「Noisy Student」を徹底解説! 画像生成分野で物凄い成果を出し続けているモデルとしてGenerative Adversarial Networks、通称GANがあります。GANは基本的に 「生成器」と「識
08/31 (2020): 投稿 08/31 (2020): 「畳み込みを一切使わない」という記述に関して、ご指摘を受けましたので追記いたしました。線形変換においては「チャネル間の加重和である1x1畳み込み」を実装では用いています。 08/31 (2020): 本論文で提案されているモデルの呼称に関して認識が誤っていたためタイトルおよび文章を一部修正しました。 言葉足らずの部分や勘違いをしている部分があるかと思いますが、ご指摘等をいただけますと大変ありがたいです。よろしくお願いします!(ツイッター:@omiita_atiimo) 近年の自然言語処理のブレイクスルーに大きく貢献したものといえば、やはりTransformerだと思います。そこからさらにBERTが生まれ、自然言語の認識能力などを測るGLUE Benchmarkではもはや人間が13位(2020/08現在)にまで落ちてしまっているほ
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 他にも次のような記事を書いていますので興味があればぜひ! 【2020決定版】スーパーわかりやすい最適化アルゴリズム -損失関数からAdamとニュートン法- 画像認識の定番データセットImageNetはもう終わりか パラメータ数を激減させる新しい畳み込み「MixConv」解説! 自然言語処理の王様「BERT」の論文を徹底解説 【基本編】画像認識に使用されるData Augmentationを一挙にまとめてみた! 画像認識に特化させた新たな活性化関数FReLU解説&実装! 今やあらゆる分野で驚くべき結果を残し続けているニューラルネットワークですが、そのニューラルネットに無くてはならないものこそが活性化関数で
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2012年にAlexNet[Krizhevsky, A.(2012)]が登場してから、画像認識分野での発展は著しい。その発展を支えてきたものこそ大規模データセットImageNet[Deng, J.(2009)]である。ImageNetでSoTAを達成すると、そのモデルには最強モデルの称号が与えられると言っても過言ではない。2020年6月にGoogle Brainによって出されたこの論文は、そんな当たり前に使われてきたImageNetデータセットに対して疑問符を叩きつけるものとなっている。現存のImageNetでの性能評価が必ずしも正しいのだろうか。この論文を通してその答えを探しにいく。 本論文で使われて
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 2018年10月に登場して、自然言語処理でもとうとう人間を超える精度を叩き出した ことで大きな話題となったBERT。それ以降、XLNetやALBERT、DistillBERTなどBERTをベースにしたモデルが次々と登場してはSoTAを更新し続けています。その結果、GLUEベンチマークでは人間の能力が12位(2020年5月4日時点)に位置しています。BERTは登場してまだ1年半程度であるにもかかわらず、被引用数は2020年5月4日現在で4809 にも及びます。驚異的です。この記事ではそんなBERTの論文を徹底的に解説していきたいと思います。BERTの理解にはTransformer[Vaswani, A.
オミータです。ツイッターで人工知能のことや他媒体で書いている記事など を紹介していますので、人工知能のことをもっと知りたい方などは気軽に@omiita_atiimoをフォローしてください! 最新の最適化アルゴリズムRAdam ニューラルネットワークは画像認識や自然言語処理など多方面で使われており、おもしろいことにも使うことができます。そんなニューラルネットワークが高い精度を出すためには、優秀な最適化アルゴリズムが必要不可欠です。最適化アルゴリズムとして現在デファクトスタンダードとなっているのがAdamです。Adamが登場したのは2014年のことですが、そこからAdamに取って代わるような最適化アルゴリズムは久しく出ていません。そんな現状をとうとう変えると期待されている新しい最適化アルゴリズムの論文が国際学会ICLR2020に採択されました。その名もRectified Adam、通称RAda
CNNからバッチノーマライゼーションとその仲間たちまでを図で解説! ディープラーニングが流行するきっかけとなった分野は画像認識と言っても過言ではないでしょう。 実際にディープラーニング流行の火付け役となった2012年のAlexNetは画像分類タスクにディープラーニングを適用させて驚異的な結果を出しました。AlexNetの論文は現時点(2019年12月現在)で 被引用数 52,655を誇るバケモノ論文 になっています。このAlexNet以降で 画像認識分野で使われている技術こそがCNN(Convolutional Neural Network) なのです。(もちろん最強の画像認識モデルEfficientNet(拙著の解説記事)もCNNベースです。) このCNNの層を深くしていくことで精度を向上させていくのですが、 層を深くすればするほどCNNが逆にうまく学習してくれなくなってしまうのです。
# -*- coding:utf-8 -*- import os import urllib.request import json import configparser import codecs import csv import sys import sqlite3 from collections import namedtuple import types #/_/_/_/_/_/_/_/_/_/_/_/_/COTOHA_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/ # ここの部分のコードはこちらから取ってきています。 # https://qiita.com/gossy5454/items/83072418fb0c5f3e269f class CotohaApi: # 初期化 def __init__(self, client_id, client_secret,
次のページ
このページを最初にブックマークしてみませんか?
『@omiitaのマイページ - Qiita』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く