#daiizメモ

Cosenseに夢中

🌏️🔌

自宅のWi-Fiルーターが壊れてしまった。本日は有線接続でお送りします。

持っててよかったEthernet to USB-C変換ケーブル。

Artifact Registry移行の駆け込み対応

個人開発で運用している複数のGCPプロジェクトで警告が出ていた。いよいよ期限が迫っているので着手。ドキュメントを読みつつ提示されたコマンドを実行するだけで無事に移行できた。新たな環境での権限付与のレビューだけ大変だった。Container Registryに保存されていたDocker imageが全部コピーされて時間がかかった。もはや参照されていない古いやつは予め消しておけばよかった。2022年の懐かしいimageも出てきた。

対応完了した。「今日の日付」画像、点描画変換ツール、miilClient、Phonno、Chronicle、Snapshot machineなどがすべて救われた。めでたしめでたし。

Container Registry時代の *gcr.io のURLを引き続き使えるのはありがたい。ビルド設定やデプロイパイプラインを直し始めると大変すぎる。

湘南藤沢 3

午前中は開発の議論をして、午後は鎌倉でフレンチイタリアンをいただいた。

小学校の遠足ぶりの小町通り

ブイヤベース、牡蠣、セロリの新芽

サーモン、バジル、マンゴーソース。クラスタリングの可視化を思い出した。

daiiz.hatenablog.com daiiz.hatenablog.com

鯖、マンゴー、カリフラワーソース

モチモチ食感のパスタ、猪肉のラグー。猪肉のRAG。この料理と一緒に出されたワインが好きだった。写真を撮り忘れた。

めっちゃ美味しい豚肉

2種類のチョコレート

湘南藤沢 2

夕方まで爆睡したあと、藤沢で id:kanata_02くんとディナーしてきた。技術書典18に無事当選できたので出展の作戦会議をはじめた。TeamJとしての初の現地参戦*1を最大限に楽しめるよう、なんとしても新刊を書きたい。執筆スケジュールを綿密に組もう。他にも万博やWWDC、Mac miniの話もできてよかった。

写真を正方形で撮る(あとから切り抜くするのではなく最初から正方形で保存する)話を聞いて、試してみた。普段と構図の決め方が変わってきて難しい。まったく関係ないのに無意識にスマホの向きを変えたりしていた。言われてみればたしかにmiilやInstagramに投稿することを考えると長方形で撮る必要はないことに気付いた。さらに固定観念を捨てると、円形や三角形の写真があってもいいのではないか? 研究していきたい。

ホテルに帰ってきた。とあるプロジェクトのバグ修正の方針が閃いた。実装してみたところ、どうやらうまく動いているっぽい。次に設計しようと思っていた機能とも相性いい感じの方向性で着地していて一石二鳥だ。

*1:技術書博覧会での出展経験は豊富だが、技術書典は今回が初めて!

湘南藤沢

今週末は藤沢〜鎌倉エリアに滞在予定。今日は、慶應義塾湘南藤沢キャンパスで開催された増井俊之教授の最終講義に出席してきた。

京都に帰ったら改めてレポートを書きたい。

聴講者による最終講義の実況: https://x.com/hashtag/masui_last_lecture?src=hashtag_click

Geminiの画像編集能力に感動した

3ヶ月ぶりにGeminiに感動した。前回の感動はこちら:

daiiz.hatenablog.com

今回もGoogle AI Studioでのできごと。アップロードした画像をテキストで編集できるようになった。加工したい内容をプロンプトで指示するだけで画像を生成してくれる。指示と関係ない箇所はほとんど変更されない。これがすごい。

Google AI StudioでのImage Editingのデモ。クロワッサンにチョコソースをかけるよう指示している。

ここまで綺麗に画像の大部分を維持して望み通りの編集をしてくれるツールは初めて見た。素人ユーザーとしてはPhotoshopでも難しかったと思う。

ほかにも、自分の写真で試してみた。だいぶ雑な要求にも関わらず一貫性のある出力が得られた。繰り返し操作しても作画崩壊しない。

「夕焼け空にして」→「空色に合わせて湖もいい感じにして」の2段階編集

「ペットボトルを消す」→「電話を消す」→「テレビを消す」の3段階編集

アプリの設定を見てみると、Output formatをImages and textとしたgemini-2.0-flash-expモデルが動いているようだ。なぜこんな凄いことができるのだろう。Geminiが裏でImagen3をtoolとして使っている?それともGemini単体で画像を生成している?これがマルチモーダル言語モデルの真の強さということなのか。

developers.googleblog.com

公式の記事では "native image generation" と書かれているので、Geminiのみで完結しているような気がする。そうなると、Imagen3の立ち位置はどうなるのだろう?


さらに、Gemini APIでも同じことができるのを確認しておいた。Google AI Studioで提供されているPythonコードをほぼコピペして動かしただけですが、結果も含めてColab notebookを置いておきます。つまりもうアプリを書けるということだ。

colab.research.google.com

chunk.candidates[0].content.parts[0].inline_data が画像データ

いやー恐ろしい。ここ最近はWhiskが楽しくて可能性を感じていたところだったが、さらにヤバいものが登場してしまった。この威力を活かせる開発ネタを考えたい。

daiiz.hatenablog.com

daiiz.hatenablog.com

ハッピーセット

マクドナルドのハッピーセットで、チキンナゲットのおもちゃをゲットした。

自作のナゲット形状分類器にもかけてみる。全体的に丸みが強いせいで判別に苦戦していた。これまでの実験では、本物のナゲットに対しては、RGBフルカラー写真で学習したモデルで最もよい結果が得られる傾向があった。しかし今回のおもちゃを対象にしたときは、輪郭線画像データで学習したモデルが安定していた。また、いずれのケースにおいても二値化画像(白黒画像)のモデルはほとんど役に立たないことが確認された。

豆知識

  • UberEatsの注文では、ハッピーセットのセットドリンクとしてアイスコーヒーは選べない。子供向けのメニューだし当然かもしれない。
  • ハッピーセットのドリンクは紙ストローではなくプラスチックストローが付いてきた。