2024年このブログの振り返り

取り組みへの振り返り

 今年は、週に1回はなにかしらの更新をするというルールでやっていた。1,2時間程度で書ける雑なもので良いからとにかく1記事は書くつもりだったが、8月中旬の引っ越しの週では1回だけ落としてしまった。本当に1時間分も余裕が無かったということはないので、これは完全に手抜きでしかなかった。

 それ以外でも、明らかにしょうもない記事だなと自分で感じるものは多々ある。この習慣が無いよりは良かったと思うが、まだ改善する余地もあるだろう。来年はまた一歩進めるようにしたい。


 相変わらずなにをやっていくかフラフラしていた1年だった。以下、書いてきたものを月ごとに振り返る。それぞれの時期で興味があったことを示しているはずだ。

1月

 1月は基本的には強化学習のAtari-100kベンチマークにおけるSOTA手法を動かしたりしていた。このベンチマークは比較的計算資源貧者に優しい部類のものだと思うので、できれば今後も追いかけてみたい。

2月

 2月は、先月に引き続き強化学習を触ったり、突然世界モデル側を見てFSQと戯れたり、AHC030にかなり時間をかけたりしていた。AHCに対するモチベーションは安定しておらず、すごくやるときと参加すらしないときがある。予めスケジュールを把握しておけばモチベーション上げやすい気がするので、多少気をつけてみたい。

3月

 3月は業務で使いそうな技術をつまみ食いしている。Gaussian Splattingもガウス過程もLevenberg-Marquardt法も、今どれだけ使っているかというと微妙。

4月

 4月は急にMambaが気になって読んだ。この後出るMamba2とかも含めて、追いかけて良かったと思う。

5月

 5月も技術をいろいろつまみ食いしたりAHCやったり、謎の動きである。最適化手法を行きあたりばったりに学んだのは、結局あまり身になっていないようにも感じる。

6月

 6月は、途中でMamba2が混入しているが、それ以外はずっとstreet-gaussians-nsを触っている。結構手を入れたので、半年後に手順を再現する必要が生まれたときもそこそこスムーズにできた。結局なににも結びついてないところは残念であるが、これは一つの成果ではあるかもしれない。

7月

 7月も相変わらずstreet-gaussians-nsと、さらにglimにも触っており、Localization/Mappingの人間らしい動きではあるかもしれない。とはいえ、2024年末の時点でLocalization/Mappingに対する興味がどの程度あるかというと、正直かなり薄まっているとは感じる。

8月

 8月は一番ひどい月だった。全然時間をかけていない。そういう月もある。

9月

 9月は完全に迷走して『哲学探求(鬼界彰夫訳)』とか読み出している(実際は8月後半からかなり時間をかけて読んだ覚えがあるが)。いろいろ考えた結果、拡散モデル〜Flow Matchingあたりで気を取り直し、最終的にはMineRLやろうというところに辿り着いているのは良かったかもしれない。ここからしばらく触っていくことになる。

10月

 10月はFlow Matchingによる世界モデルをMineRLで実装するというところに向けて実装を進めていた。ある程度有望であるとは思うが、やっぱりこれだけでは、と思うところもある。

11月

 11月もMineRLをやっている。そして、Streaming Deep Reinforcement Learning Finally Worksという強烈な論文も見つけた月だった。適格度トレースも学び直して、オンライン強化学習への興味が再燃している。手元でも再現してみたい……、なんで2ヶ月も経ってまだなにもできていないのだろう。

12月

 12月もなかなかに話題が散らかってしまった。しかし、その中でも内発報酬のアイデアは自分でも悪くないと思うし、Action Value Gradientも理解と動かしてみることの両方をちゃんとやれたのは良かった。

内容についての総括

 やはり自分は基本的に強化学習に興味があるのだと思う。特にオンライン強化学習。そして計算資源は多くないので必然的にドメインは絞られる。あるいは、計算機がなくても理論面については進められるはず。自ずとやっていくことは収斂していくだろうとも感じるし、積極的に一本芯を通したいとも思う。来年もまた同じような振り返り記事を作ったときに、テーマが浮かび上がってくるような記事のリストになっていると良い。