11年以上Macを使い続けてきた筆者が、「これがないとMacじゃない!」というレベルの必須オススメアプリを紹介する。
社会人でもあり理系大学院生でもあるという筆者のバックグラウンドから、社会人の仕事効率化や資格試験の勉強に使えるアプリ、さらには膨大なドキュメントを管理する大学院生・大学生に役立つアプリまで、きっと示唆に富むセレクションになっているはずだ。
Macを初めて購入した人や、あまり使用頻度が高くないライトユーザーの場合、初期から入っている純正アプリとブラウザくらいで、Macを使い続けている人も多いのではないか。
Macの強みは、サードパーティーのアプリが充実していて、痒い所に手が届く様々なニーズに応えるアプリが存在することだ。純正アプリだけでは、Macが本来持つポテンシャルを引き出せておらず、勿体ないと感じてしまう。
この記事で紹介しているのは、筆者が実際に毎日多用している、11年かけて厳選に厳選を重ねた無料アプリ&有料アプリだ。
長年Macを使用している人であっても、知らないアプリが1つは見つかるのではないか。
筆者が実際に使っていて、本気でオススメしたいアプリだけを掲載しているので、ぜひ参考にしてみて欲しい。
なお、10年超の経験に基づいて、Macと組み合わせて使うのに最適な周辺機器・アクセサリーを厳選して紹介・解説する記事も公開している。本記事と併せて、ぜひ参考にして欲しい。
Macは、スティーブ・ジョブスがフォントにこだわっていたように、文章を作成する際に、非常に美しいフォントで文字を入力することができるのも魅力の一つである。
そうした初期のブランドコンセプトもあってか、現在でもサードパーティーの開発者が、Mac向けに美しく多機能なテキストエディターを多数開発してくれている。単なるテキストエディターなのに、こんなに種類があるのはなぜなのか理解できない人もいるかもしれないが、それぞれのアプリが特有の機能を押し出しており、実際に使ってみればその魅力がきっとわかるはずだ。
筆者は、腰を据えて文章の執筆やノートの作成にあたるときは「Obsidian」を使い、突発的なメモには「iA Writer」を使うというように、複数のアプリを使い分けている。ぜひ、ここで紹介するテキストエディタの中から、あなたのお気に入りを見つけてみてほしい。
Obsidianは、シンプルなテキストファイルを使ってテキストノートを整理・管理できる、総合ナレッジマネジメントツールだ。
個人で利用する場合、無料で全ての機能が利用でき、圧倒的に高機能で、筆者が最もおすすめしたい最強のアプリの一つだ。
「Markdown」という簡単にテキスト装飾ができる記法(*で太字、ハイフンで箇条書きなど)を使うことで、見出しや箇条書き、リンクなどを付けられる。Markdownを覚えるのは非常に簡単だが、仮にMarkdownを知らなくても、マウスの右クリックなどで直感的に使えるインターフェースになっている。
Markdownの魅力は、以下のような点が挙げられる。
テキスト、リンク、コードを組み合わせた以下のようなノートも、美しい見た目で整理されているが、Wordのような複雑な操作は不要で、キーボードで打ち込んでいくだけで簡単に作成できる。
作成したノートは、ローカルのフォルダにプレーンテキストで保存されるから、他のアプリでも開けるし、クラウドに預ける必要もない。もちろん、iCloudでMac, iPad, iPhoneを跨いで同期することも可能だが、何より自分の情報を自分でコントロールできるのも魅力の一つだ。
Obsidianの真の魅力は、ノートをリンクで自由に結びつけられるところにある。
Wiki機能といい、関連するノート同士を双方向リンクで紐づけることができる(ノート同士のリンクも、Markdownで簡単に記述できる)。
これによって知識をネットワーク化し、複数のノートを組み合わせながら、新しいアイデアを生み出すことができる。
また、キャンバスと呼ばれるファイル形式を使えば、フロー図・マインドマップも、Obsidianの内部で作成することができる。キャンバスファイルも、オープンソースでObsidianによって開発されており、他のアプリでも表示できたりする。
Obsidianには700以上のコミュニティープラグインがあり、ユーザーが開発した様々なプラグインを利用できるのも大きな魅力だ。自分の使い方に合わせて、機能を拡張することができる。
カレンダーやトヨタカンバン方式のタスク管理、スプレッドシートなど、さまざまなツールをObsidianの中に組み込んで、ワンストップで情報を扱える。
Obsidianは自分だけのナレッジベースを自由自在に構築できる、究極の情報整理ツールだ。
Macユーザーであれば、美しいタイプフェースに惹かれる心は持っているはず。是非一度、Obsidianを体験してみてほしい。
iA Writerは、テキストを書くことだけを目的にしたシンプルで美しいアプリだ。
とにかくインターフェースに邪魔するものがなく、1段落1段落にフォーカスし前後の段落を見えにくくする機能など、文章を集中して書きたい人のための機能が充実している。
また、Markdownを採用しており、テキストの装飾も簡単にできる。Obsidianでも説明した通り、マークダウン(Markdown, .md)とは、見出しや太字、箇条書きなどを、「#」「*」「-」などの記号によって、シンプルに表現できるようにしたテキストフォーマットである。
Ulyssesなどの競合アプリもあるが、一般にサブスクリプション方式で高額な年会費が掛かることが多い。
それらのライバルに対して、iA Writerは一度払えば永遠に使い続けることができる買い切り方式なのも嬉しい。
Obsidianと同じく、iCloud上で同期し、iPhone/iPadなどともテキストノートを共有できる。
最近ではAndroid版やWindows版もリリースされているため、例えばDropbox上にフォルダを作れば、全プラットフォームで同期させることも可能だ。
発展形として、.txtや.mdが保管されているフォルダでGitを有効にすれば、変更履歴を記録し、更にGitHubで複数人で共同編集することも可能だ。
iA WriterにあってObsidianにない機能としては、WordpressなどのCMSに、執筆しているMarkdownファイルをそのままアップロードする機能などがある。
Obsidianでは、このPublish機能は有料でサブスクリプションが必要になるため、買い切りで利用できるiA Writerはありがたい。
iA WriterもObsidianも、Markdownを利用しており、プレーンなテキストファイルとして自分のMac内の好きな場所に保存できるため、両方のアプリで、同じファイルを開くことも可能だ。それぞれのアプリの得意分野を活かして、使い分けてもいいだろう。
クラウドは、Apple純正のiCloudがあるが、無料容量はわずか5GBで、速攻で容量がいっぱいになる。毎月毎月、iCloudストレージのサブスク料金を支払い続けている人も多いだろう。
また、macOS SequoiaからApple純正の「パスワード」アプリも導入された。しかし、WindowsやAndroidなど、他のデバイスとのパスワード共有の利便性は低く、一度使ったらApple沼から抜け出せなくなる壮大なトラップだ。
ここでは、無料でも利用できるクラウドストレージサービスと、パスワードマネージャーアプリをそれぞれ紹介する。
自宅ではMacを使用しているが会社ではWindowsを使っているとか、スマホはAndroidを使っているとか、Appleエコシステムに過剰に縛られたくない人は、絶対にこれらのアプリを使っておいた方が良い。
クラウドストレージといえば、iCloud, Dropbox, Google Driveなどが真っ先に思い浮かぶだろう。しかし、筆者のイチオシは、比較的マイナーそうな「pCloud」アプリである。
無料でもらえるストレージ容量が「10GB」を超えるクラウドアプリはとても貴重だ。当サイトのクラウドストレージの特集記事でも紹介しているが、無料でもらえる容量が大きい主要なクラウドサービスは、以下の3つだ。
サービス | 容量 | 特徴 |
---|---|---|
1. pCloud | ・無料でも10GB ・買い切りプランあり | ・音楽、写真、ビデオに最適なアプリ ・バージョン履歴、暗号化など機能充実 |
2. Ice Drive | ・無料でも10GB ・買い切りプランあり | ・独自の暗号化アルゴリズム |
3. Google Drive | ・無料でも15GB ・追加は要サブスク料金 | ・無料でもらえるベース容量として最大 |
pCloudは、2013年に設立されたスイスの新興クラウドストレージ企業である。
クラウドストレージは、現代では写真やドキュメントの管理のために最も頻繁に利用するサービスの一つだが、いくつかのサービスを比較検討してみて、pCloudが一番便利だと感じている。
Macでは外付けドライブのようにpCloudをマウントして使用することができ、非常に使いやすい。
他のサービスに比べたpCloudの優位性は、以下のような点が挙げられる。
Dropboxなどの他社サービスでは、有料プラン限定になっていることが多い強力な機能が、pCloudなら無料版でも利用できるのが大きな魅力だ。
また、非常に安価なライフタイムプランの存在も見逃せない。
Block-level Syncとは、ファイルの一部分だけが変更された時、ファイル全体をアップロードし直すのではなく、変更部分だけを同期する技術である。
例えば、100ページの書類の1ページ目だけを書き換えたとき、その1ページだけがクラウドに同期されるのだ。
Dropboxはこれに対応しているが、Google Driveはいちいちファイルを丸ごと(変更されていない99ページも)同期し直すので非常に効率が悪い。
スマートシンクは、クラウドに保存したファイルを端末上からは削除して、端末の容量を節約してくれる機能である。
例えばPCの残り容量が足りない時、10GB分の写真をpCloudにアップロードすれば、PCに10GBの空きを作ることができる。写真を見たいときだけ、クリックした写真がダウンロードされる仕組みだ。
内蔵メディアプレーヤーは、自分が持っている音楽を全てpCloudにアップロードしておくことで、会社や旅行先のPC、iPhoneなどのスマホなど、地球上のどこからでも再生できるのでとても便利だ。
ちなみに、有料プランも非常にお買い得な価格設定で、何よりサブスク料金不要で使える「ライフタイムプラン」の存在が嬉しい。
一生500GBもの容量を使えるプランが199ドル、2TBもの容量を一生使えるプランが僅か399ドルである。
クラウドストレージは、1回課金してしまうと、データの移行も難しく、永遠に抜け出せないサブスク地獄に陥りがちだ。一回買い切りのライフタイムプランを活用することで、長い目で見ればクラウドにかかる料金を圧倒的に節約できる。
高額にも思えるが、一生壊れることのないSSDを、この価格で購入できるのだと思えば安いものだ。
筆者も、かれこれ5年、pCloudの2TBのライフタイムプランを使っている。
もしDropboxを2TBのストレージを年間サブスク契約していたとしたら、5万円以上かかっていたはずなので、既に元は取れた。
10GBの無料容量を使ってみて気にいるようであれば、ぜひライフタイムプランも検討すべきだ。
数あるクラウドストレージの中では、間違いなくpCloudがコスパは最強であるといえるだろう。
近年では、個人がWebサイトやアプリなど数十種類、下手すると数百種類のアカウントを持つのことも珍しく無くなった。
ログインIDやパスワードをとてもじゃないが覚えきれず、一つのパスワードを使い回していないだろうか?
更に、定期的なパスワード変更を求めてくるWebサイトまであり、強固なパスワードを設定して、それを自力で記憶するのはもはや不可能である。
これを解決するのが「パスワードマネージャー」と呼ばれるアプリだ。
筆者が使用し始めてから、生活が便利になりすぎて一番感動しているアプリなので、是非とも導入することをおすすめしたい。
パスワードマネージャーは、パスワードの自動生成機能と、その保管の両方を担うツールだ。
パスワードマネージャー自体にログインするための「マスターパスワード」さえ覚えておけば、数百個、数千個アカウントを作っても、パスワードを忘れることが絶対になくなる。
例えば、Google ChromeでWebサイトを開き、新たに会員登録するときに、自動で強固なパスワードを生成してくれる。
そして、このパスワードを記憶してくれて、次にそのWebサイトを訪れた際に、自動でIDとパスワードを入力してくれるのだ。
単純なパスワードを使い回している人は、これだけで大幅にセキュリティが向上する。
Webサイトのログインページにアクセスすると、パスワードマネージャーが記憶しているパスワードを勝手に入力してくれる。
Bitwardenは、こうしたパスワードマネージャーの中でも、基本無料で利用することができるのが利点だ。
LastPassや1Passwardなど、他社のパスワードマネージャーアプリは、非常に高額な年会費が必要になる。
Mac/Windows/Linux/iPhone/iPad/AndroidなどあらゆるOSに対応しており、SafariやGoogle Chromeなどのプラグインもある。また、ブラウザからアクセスしてWeb上でも使用できるので、非常に汎用性が高い。
Bitwardenは、ソースコードが公開されおり、その安全性が世界中の技術者によって監視されているのが特徴だ。
ちなみに月にたった1ドルを払えば、「マスターパスワード」に加えて、2段階認証を設定することができる。
パスワードに加えて、スマホに入れたアプリに表示されるワンタイムパスワード(AuthyやGoogle認証アプリを使用する)や、物理的な鍵(yubikey)を必要とするのが2段階認証だ。
ヘビーユーザーは2段階認証を設定することを強くオススメする。
通販サイトからSpotifyやNetflixなどのサブスクサービスまで、ありとあらゆるアカウントのID/パスワードを記憶させることで、インターネットライフのストレスが大幅に減るので、絶対に利用しよう。
ところで、Appleユーザーは、従来は「キーチェーン」、現在は「パスワード」と呼ばれる純正のパスワードマネージャーがある。わざわざ他社アプリを使う意味は?と思われるかもしれない。
Apple純正のパスワードマネージャーには、次の大きなデメリットがある。
例えば、会社のオフィスにいる際、普段使っていないWindows PCで、急遽Amazonのアカウントにログインしたくなったら?また、海外旅行中に、友達のAndroidスマホを借りて、家族にメールを送りたくなったら?
Windowsでは「iCloud Passwords」というアプリが提供されているが、Android向けにはもはや提供されてすらいない。
会社のWindows PCで、外部アプリをインストールする許可が得られなければ、ゲームオーバーだ。
パスワードマネージャーはとても便利なツールだが、自分自身はパスワードを全く覚えていないため、Mac / iPhoneが手元にない状況ではアクセスできないという欠点がある。
最悪の場合、非常に長いパスワードを、いちいちMacやiPhoneから目視で書き写す必要がある。
これがBitwardenであれば、社用PCのブラウザからBitwardenにログインし、ワンクリックするだけで全てのサービスにアクセスできるのだ。
Google Chromeなどの他社ブラウザを使いたい人、またスマホはAndroidだという人も、Bitwardenなら全てのプラットフォーム向けにアプリやプラグインが用意されている。
Apple端末に拘束されたくない人は、間違いなくBitwardenを使った方が良い。
Macは購入した直後からクリーンな見た目でありながら、ランチャーやトラックパッドなどの基本的な機能が充実しており、非常に快適に使うことができる。
出荷直後の状態で、純正アプリのみでも、とても快適に使えるのはありがたい。
しかし、先述の通り、Macの魅力はサードパーティーが開発したアプリも充実していることだ。せっかくならば、日常的に頻繁に使う機能を、これらのアプリを導入して充実させてみてほしい。
いきなり有料アプリの紹介になってしまうが、これだけは有料でも是非入れてほしい必須アプリの一つである。
Alfredは、長年のMacユーザーなら誰もが神アプリと称える超有名アプリだ。
基本の機能は、アプリランチャー、すなわちアプリを簡単に起動するためのツールである。
筆者の場合、「Control+Space」キーを押すと、Alfredのコマンド入力ウィンドウがいつでもどこでも表示されるようにしている。
Alfredのコマンド入力ウィンドウに、例えば「zo」と打つと、直ちにビデオ通話アプリ「zoom」を起動することができる。
「Google 検索ワード」と入力するだけで、ブラウザを開くことなくデスクトップから直接Google検索できるのも便利だ。
コマンド入力ウィンドウでは、「(10+8)*25」といった計算もできるし、「Define 英単語」とすれば辞書を引いてくれるし、「Find ファイル名」とすればMac内のフォルダやファイルを検索することもできる。
これを使いこなすと、アプリの起動から何からキーボードだけで完結するので、トラックパッド操作や、マウス操作、MacのLaunchpadが、ほとんど必要なくなってしまう。
なお、Macに元から入っている「Spotlight」でも類似のことを行うことができるため、これだけならAlfredは必要ない。
Alfredの強みは、こうしたランチャー機能だけでなく、Macユーザーに嬉しい多種多様な機能を備えていることである。
例えば、クリップボード履歴機能を使えば、「Command+Option+C」で過去にコピペしたテキストをさかのぼって閲覧できる。
複数の文書をコピペしたい時などは、次々とコピーしていって、最後にこのクリップボード履歴からどんどんペーストしていけばいい。
(もちろん、一定の時間が経つと自動削除するように設定できる)
さらには、「スニペット」と呼ばれる定型文の自動変換機能も利用できる。
シンプルな例としては、「!gmail」とタイプすると、自分のGmailアドレスが瞬時に自動入力されるようにすると便利だ。
これだけだとユーザー辞書機能と変わらないと思われるかもしれないが、もう少し工夫をすると、システムから取得した時刻情報を、事前に指定した形式で出力することなどもできる。
筆者の場合、「!date」とタイプすると、その日の日付(20231125)が瞬時に入力されるようにしている。
ファイル名にこの形式で日付をつけ整理するようにしているので、非常に便利だ。
もちろん、よく使うプログラミングコードなど、より高度な設定をすることもできるし、「大変お世話になっております。」とかメールでよく使う文章をスニペットとして登録してもよい。
他にも、一定の作業を自動化するワークフロー機能もあり使いこなすと相当な仕事効率化が可能だが、紹介しだすとキリがないので、以上の基本的な機能の紹介に留める。
シングルライセンスで34ユーロ、ライフタイムライセンスで59ユーロと、円安下ではそれなりに高額だが、ひとまずトライアルから使ってみることを強くオススメする。
長くMacを使うのであれば、Alfredを入れて、作業効率を高めることの蓄積効果は、十分ペイするほど大きい。
これもまた、有料ではあるものの、このアプリなしではMacとは言えないレベルのド定番アプリである(言い過ぎ)。
その名の通り、トラックパッドでのタッチ操作をさらに高度にするためのアプリだ。トラックパッドを操作する指の本数やジェスチャーに対して、ショートカットを割り当てることができる。
非常に感度が高く使いやすいことで知られるMacのトラックパッドが、さらにレベルアップする。
筆者の場合は、次のアクションを登録している。
特にトラックパッドだけで作業をしなければならない外出中のラップトップ環境においては、これらのジェスチャーが使えることが作業の効率に大きく影響してくる。
トリガー | 割り当てアクション |
4本指で下方向スワイプ | アプリを閉じる |
3本指で下方向スワイプ | ウィンドウを閉じる |
3本指でクリック | 新規タブでリンクを開く |
TipTap(3本指のうち2本を固定)で左タップ | 戻る |
TipTap(3本指のうち2本を固定)で右タップ | 進む |
TipTap(3本指のうち2本を固定)で真ん中タップ | 新規タブを開く |
TipTap(2本指のうち1本を固定)で左タップ | カーソルの下の単語を辞書で検索 |
トラックパッドの左下クリック | RGBカラーピック |
また、もう一つ嬉しい機能として、ウィンドウの自動リサイズ機能がある。
macOS Sequoiaになって、ようやくMac純正の機能として追加された「ウィンドウのタイル表示」と同等の機能だが、Better Touch Toolに長年実装されていた。
Macのタイル表示機能と比べ、はるかに高速で感度が良く、Sequoiaになって以降も筆者はBetter Touch Toolのウィンドウスナッピング機能を使い続けている。
これは、アプリのウィンドウを画面の端っこまでドラッグしていくと、画面の左右50%やフルスクリーンなど、自動的にリサイズしてくれる機能だ。
リサイズの比率は設定によって更に細かく変更できる。
Macで文章作成などの作業をしている際に、WordとChromeを横に並べて見たい、など、画面を均等に2分割して使用したいシーンは多い。このリサイズ機能も、BetterTouchToolの中で非常に多く利用している機能である。
2年ライセンスが10ドル、ライフタイムライセンス(一生アップデートされ続ける)が僅か22ドルなので、長期間使いそうな人はライフタイムライセンスを買ってしまうのが良い。
テキストをコピペしたとき、フォントサイズや太字などのフォーマットまでコピーされてしまって、面倒な思いをしたことはないだろうか?
例えば、Gmailでコピペを組み合わせながらメールを送ると、文章の途中でフォントのサイズや色が少し変わってしまっていたり・・・。はたまた、Wordで文書を作っている時、見出しにした部分を本文にコピペすると、本文が勝手に見出しに変わってしまったり・・・。
Get Plain Textは、そんな悩みを解決してくれる。
コピペをするとき、常にプレーンなテキスト(フォーマットが付いていない文字データのみ)にしてくれるのだ。
もちろん、Excelの表をコピペするときなど、フォーマットを残しておきたい時は、一時的にこのアプリをオフにするのも簡単にできるので困らない。
「自動消去」のチェックを外しておけば、フォーマットを残してコピペすることができ、またプレーンに戻したければ、再び「自動消去」にチェックを入れておくようにする。
筆者は、Macを起動したら勝手にGet Plain Textも起動するように設定しており、常にオンにして利用している。
もはやこれをシステムデフォルトにして欲しいくらいだ。まさに必須のアプリと言えるだろう。
Mac Bookを使用していても、外部ディスプレイを使用していても、明るさ調節は当然できる。
しかし、夜間に使う場合などには、限界まで暗くしていても、明るすぎると感じたことはないだろうか?
「まだ明るいな・・・下限を超えてもっと暗くできないの?」という悩みを解決するのが、「QuickShade」だ。
その名の通り、画面にシェードをかけてくれるかのように、真っ暗になるまで明るさを減ずることができる。
QuickShadeを起動するとタスクバーにアイコンが表示され、それをクリックすると、QuickShadeのオン/オフの切り替え、明るさのトグル調節ができる。
これによって、画面の明るさを限界を超えて更に暗くすることが可能になる。
夜間の作業時にも目に優しいのでオススメだ。
注意点としては、画面全体に透明なグレーの膜を映し出しているような状態なため、スクリーンショットを撮影すると、撮影した画像もグレーがかった感じで薄暗くなってしまう。
そのため、スクリーンショットを撮ったり、画面を録画したりしたい場合、一旦QuickShadeをオフにする必要がある。
アンフェタミンとは、ADHDなどの治療に用いられる、体内のドーパミンの量を増加させる薬剤である。
若干ジョークの効いた名前だが、このアプリはMacをスリープに入らせることなく、付けっぱなしにしておくためのものである。
Wi-Fi環境で大きなファイルをダウンロードしている場合など、なんらかの作業が完了するのを待っている場合に、Macに勝手にスリープに入ってほしくない場合がある。
Macのシステム設定でもスリープ時間の変更は可能だが、一々システム設定を開いて設定を変更するのも面倒だし、一度変更したのを忘れてそのままにしてしまうこともありうる。
Amphetamineは、分単位・時間単位や、特定のアプリが起動している間、といった指定ができるため、その時々のニーズに合わせて簡単に長短を変更できるし、設定の戻し忘れのリスクがない。
Macに限らず、パソコンを使用していると、キーボードの中でCapsLockなど一生使うことのないキーが無駄になっていると感じたことはないだろうか?
そんな悩みを解決すべく、キーボードのキーの配置を、ソフトウェアで簡単に変更できるのがKarabinerである。
例えば、筆者の場合はCapsLockキーを、コントロールキーとして認識させるように変更している。
これによって、間違ってCapsLockを押したせいで英語が大文字になってしまい苦しめられることがなくなり、しかもコントロールキーとして、様々なショートカットを左手の小指でCapsLockキーを押すことで実行するなど、通常は使わないキーを有効活用することができる。
これ自体は、Macのシステム設定からも変更可能なのであるが、Karabinerの便利なところは、「Target Device」で特定のキーボードだけを指定できることだ。
例えば、Mac Bookのユーザーは、カフェなどでは本体内臓のキーボードを使用し、自宅ではWindows向けの外付けキーボードを使用する、ということがありうる。
このような場合、内蔵キーボードと外付けキーボードのキー配列が異なるため、それぞれ別のレイアウトに変更したくなるかもしれない。
Karabinerなら、そういった非常に細かいニーズにも応えられるのだ。
また、当然ながらCapsLockキー以外のキーもマッピングを変更できるので、Macのデフォルトの設定では変えられないようなことも実現できる。
例えば、ファンクションキーの割り当て変更もできるため、Fnの「巻き戻し」とか使ったことがないという人は、もっと自分が使う頻度の高い機能をFnキーに割り当てることができる。
筆者は、毎回Macを購入するたびに、まず最初にKarabinerを入れるくらいには多用している。
これと先に紹介したBetterTouch Toolを組み合わせると、キャプスロックキーを押しながらカーソルを移動すると、カーソルの下にあるウィンドウを自由に移動できるなど、様々な機能を実現することが可能である。Karabiner-ElementsとBetterTouch Toolは、筆者にとってMacと切っても切り離せない、必須中の必須アプリだ。
スクリーンショットを撮って、同僚にWebデザインの指示を出したり、アプリの使い方を教えたり、ブログに載せたりと、他の人にスクリーンショットをシェアする場合には、モザイクをかけたり、テキストや矢印で注釈をつけたりといった作業が非常に頻繁に生じる。
Macのデフォルトのスクリーンショットは、撮った後にサムネイルをクリックすることで、一応編集ができるものの、個人情報をサクッと隠すためのモザイクなどの機能や、ルーラーなどの機能はなく、そこまで直感的に編集できない。
そのため、「Skitch」などの別の画像編集アプリを立ち上げ、モザイクをかけたり注釈をつけたり編集し、上書き保存する、という結構面倒なプロセスを踏まなければならなかった。
この点、「Shottr」は、スクリーンショットを撮ってから、編集して、他人に送信するまでのプロセスをめちゃくちゃ高速化・効率化してくれる素晴らしいアプリだ。
スクショを撮ると、その瞬間にShottrの編集画面が起動し、編集モードに入る。
編集が終わったら、ファイルの保存等をしなくても、直接ドラッグ&ドロップで編集後のファイルをメールに貼り付けたり、パワーポイントに貼り付けたり、ブログの編集画面に貼り付けたりすることができる。
スクショに写ってしまった個人情報にモザイクをかけるのも瞬時にできるし、ルーラー(定規)や吹き出しを使ってデザインに書き込みを入れることもスムーズにできる。
矢印や図形、テキストの挿入も容易なので、スクショを介したコミュニケーションに必要な機能が一通り入っている。
Shottrは、Command+Shift+1で全画面、Command+Shift+2で選択範囲のスクリーンショットを撮ることができる。
さらに、スクロールしながらのスクショ、時間差でのスクショ、ウィンドウを選択してスクショなど、高機能なオプションもついている。
Macのデフォルトのスクリーンショットのキーボードショートカットとも干渉しないので、注釈を入れたり共有したりしたいときにはShottrのショートカットで、それ以外の時にはMacのデフォルトのショートカットでと使い分けられるのも魅力だ。
Laterは、現在開いているすべてのアプリとウィンドウを、瞬時に全て隠すことのできるアプリだ。
閉じるのではなく、単に隠すので、現在作業中の内容などを失うことなく、後で全てのウィンドウを瞬時に復活させることもできる。
Command+Shift+Lで、ウィンドウを全て隠し、Command+Shift+Rで、全てのウィンドウを元に戻すことができる。
これは、Web会議を行う場合に、それまで行なっていた作業を中断したくはないが、画面を共有するために念のためデスクトップを綺麗にしておきたい場合などに役立つ。
また、様々なデータを見ながらExcelで表計算をしている途中で、急遽別のWordファイルを作らなければならなくなった場合など、頭をある作業からある作業に一時的にさっと切り替えるような場合にかなり便利だ。
Macを使い込んでいるうちに、多くの常駐アプリが増えてくると、メニューバーのアイコンが増えすぎて、スペースが足りなくなる場合がある。
上記で紹介してきたMacの基本機能を強化するアプリたちは、基本的に常駐なので、新しいアプリを次々導入しているうちに、あっという間にメニューバーが一杯になってしまうかもしれない。
また、Google Drive, Dropboxなどのクラウドドライブも大抵常にメニューバーに表示されるし、アプリによってはカレンダーなどがメニューバーに常駐する場合もある。
しかし、実のところ、常にメニューバーに表示しておいて欲しいアプリ/アイコンはかなり限られている。
表示しておきたいのはバッテリー、時刻、設定、Wi-Fiぐらいで、あとは隠しておいても正直問題ないように感じてしまう。
Hidden Barは、無料アプリながら、そんな希望を叶えてくれる優れもののアプリだ。
メニューバーに常時表示・非表示の境界線を設け、Commandキーを押しながらメニューバーのアイコンをドラッグ&ドロップすると、左側に追いやった不要なアプリを隠し、右側に持ってきたアプリを常に表示したままにしてくれる。
2021年に発売されたMac Book Proから、ディスプレイの隅まで表示領域を広げるために「ノッチ」が導入された。
これによって、画面のスペースは広がったものの、メニューバーがノッチに隠れてしまい、一部のアプリにアクセスできないという問題が生じることがある。
このノッチの問題にも、ある程度このアプリで対応することができる。
メニューバーとノッチの干渉の問題に対しては、「Bartender」という有料アプリも存在するが、こちらは2700円以上するなどかなり高額なので、無料アプリであるHidden Barの方がオススメだ。
Excelなどの表計算アプリや、Premierなどの動画編集アプリなど、様々なアプリケーションで、キーボードショートカットを覚えると、作業スピードが向上するため非常に便利だ。
しかし、アプリごとにショートカットは異なるし、どれがどのキーだったかなど、すぐに忘れてしまう。
「KeyClu」は、そうした悩みを解決してくれるアプリだ。キーボードショートカットの一覧を、いつでもどこでも表示してくれる。
Macのキーボードのコマンドキーを長押しすると、画面に現在開いているアプリ上で利用できる以下のようなショートカットの一覧を表示してくれる。
よく使うアプリであれば、これを見ながら徐々に覚えていけば、そのうちキーボードショートカットを使いこなせるようになるだろう。
こうしたキーボードショートカットを表示するアプリは、かつては「CheatSheet」というアプリが存在したり、何かと新しく開発されては更新が終了されて使えなくなってしまうことがあった。
「KeyClu」は、オープンソースで開発されているために、Github上にアプリもソースコードも無料で公開されており、仮に現在の開発者が更新をやめてしまったとしても、この先も誰かが開発を続けていってくれることが期待できる。
Githubで公開されていることもあって、若干ダウンロード方法に戸惑うかもしれないが、通常のアプリと同じく、.dmg
ファイルを入手して、簡単にインストールできるので安心してほしい。
GithubのKeyCluのレポジトリで、以下の「Releases」ページを開き、画面下部にあるKeyClu_v0.26.dmg
のような名前の.dmg
ファイルをクリックしてダウンロードすればいいだけだ。
ここまでは、キーボードショートカットやトラックパッドなど、Macの基本機能を効率化・快適化するためのアプリ群を紹介してきたが、ここからはさらに踏み込んで、Macでプロジェクトやドキュメントを管理するにあたって便利なツールを紹介する。
これらを使いこなせば、仕事はもちろんのこと、勉強や大学での学生生活などでも、Macのポテンシャルをフル活用できることだろう。
Notionは、Evernoteを強化したようなめちゃくちゃ高機能なノートアプリと、AsanaやTrelloのようなプロジェクト管理・タスク管理ツールと、スプレッドシートを全て合成して作られたようなオールインワンノート・データベースアプリだ。
かつてはEvernoteがノートアプリの決定版という感じだったが、最近ではEvernoteのユーザーも減少しているようで、Notionに乗り換えたと聞くことも多くなってきている。
一見すると普通のノートアプリのようだが、ノートの中にサブノートを作ってリンク構造を作れたり、ノートの途中でおもむろにテーブルやコードを埋め込めたり、外部リンクがサムネ付きでいい感じに表示されたりと、非常に高機能だ。
Notionには様々なテンプレートがあり、通常のノートブックのようなテンプレートから、チームで複数人で使うプロジェクト管理ツールのようなテンプレートまで、あらゆる便利な使い道が用意されている。
例えば、以下は通常のノート風のテンプレートで、通常のテキスト、タスクのチェックボックス、サブページへのリンク、Pythonコード、テーブル、外部リンクなどが埋め込まれたものの例だ。
情報を1箇所にまとめて管理しておきたくて、ノートアプリを探している人は、とりあえずNotionを選んでおけば、機能が不足して困ることはないだろう。
もう一つの例として、プロジェクト管理のテンプレートを見てみよう。
ぱっと見、TrelloやAsanaなどのプロジェクト管理ツールなどと見分けがつかないインターフェースだ。
プロジェクト内のタスクの一覧をカンバンボードで表示したり、一覧表示して割り当てられたユーザーでフィルタをかけたり、タスクごとに優先順位や担当者、締切日を設定したりすることができ、見た目だけでなく機能面でも十分な機能が備わっている。
他の人を招待して複数人で編集・作業することもできるので、会社のチームのメンバーのタスク管理などもこれで行うことができてしまう。
通常のノートと同じように、ノートの中にサブノートを作る、といったようなページ同士のリンクも可能なので、タスク単位でページを作成したり、タスク単位でTo-doリストを作成したり、カスタマイズの幅はまさに無限大だ。
しかも、ファイルのアップロード量などに制限はあるが、基本的な使い方では無料のまま使い続けることができる。
ファイルのアップロードが無制限になる有料プラン(Plus)でも月8ドルと、機能に対してはかなり安価になっている。
とはいえ、あまりに高機能すぎて尻込みしてしまうユーザーもいるかもしれない。
もちろん、基本的なノートアプリとしての機能を使うだけでもMac、iPhone、iPadでノートを同期できて非常に便利ではあるのだが、せっかくであれば、Notionが備えているデータベースの機能をもっと活用したい。
Notionはあまりに奥深いため、YouTubeには多数のチュートリアル動画がかかっているし、もちろん書籍も多数販売されている。
こうした書籍を一つ買ってみて、基本的な機能を把握した上で使い始めれば、Notionが持っている魅力を十分引き出せることができるかもしれない。
元々「Cron」という名称で開発されていたカレンダーアプリだが、Notionが買収し、現在はNotion Claendarとして無料で利用することができる超高機能なカレンダーアプリだ。
Googleアカウントなどでログインできるので、今使っているカレンダーをそのまま同期しながら、美しいインターフェースで予定を管理することができる。
Notionが買収したおかげで、Notionとも統合された機能が色々と用意されており、Notionユーザーであれば、迷いなくNotion Calendarを使ってみてほしい。
例えば、それぞれの打ち合わせの予定に、Notionのページを紐付けることが可能になっており、打ち合わせ中に皆で共同編集するNotionのページなどを、個別の予定とリンクすることも可能だ。
さらに便利な機能として、人と予定調整を行う場合に、自分のカレンダーの空いているところの時間を箇条書きに書き出すのも非常に面倒だが、Notion Calendarだとそれを半自動化できる。
以下のように、空いている時間帯をクリックして指定すると、その時間帯を全て箇条書きで書き下したスニペットを自動で生成してくれる。これをコピペしてメールで送れば、日程調整は完了だ。
「作成」ボタンをクリックすると、クリックするだけで予定を承認してもらえるリンクが有効になる。
実際に生成されたテキストは以下のようなものだ。
以下の時間枠(すべてGMT+9)のうち、30分 ご都合のつく日はありますか?
- 12月25日(水) 12:00 - 12:30
- 12月26日(木) 12:30 - 14:45
- 12月27日(金) 12:00 - 15:30
こちらのリンクから、私への連絡や確認ができます。 https://calendar.notion.xxxxxxxxxxxxxxx
他のカレンダーアプリもぜひ真似してほしい、痒いところに手の届く機能だ。
Notion CalendarにはiOSアプリもあるため、iPhoneとMacで同じカレンダーアプリで統一することもできる。
ウィジェットなども充実しているので、非常に使い勝手が良い。
PDF Viewerは、iPhone, iPad, Androidなどでもアプリが提供されている、PSPDFKitによるPDFアノテーションアプリだ。
無料版でも、ページの追加・削除、ページの順番変更なども非常に分かりやすいUIで行えるほか、書き込みやハイライトにも対応している。
もちろん、署名にも対応しているので、PDFに直接サインをして送り返すといったことも可能だ。
5千円取られてもおかしくないような超絶高機能なアプリなので、Macでメインで使用するPDFアプリを探している人は、迷わずにこれを選ぶべきだ。
なぜこれほどの機能性のアプリが無料で提供されているのかは、PSPDFKit社のバックグラウンドを理解すると分かりやすい。
PSPDFKitは本来、企業向けに、Webサイトやアプリに埋め込むPDFのソフトウェア開発キットを販売している会社だ。
したがって、これらの無料アプリは、「PSPDFKitがどれだけ高機能かを見せつけるためのショーケース」として提供されている。
実際、PSPDFKitは、著名なアプリ上にも埋め込まれていることがあり、時々「あれ?これいつも使ってるPDF Viewerと似てるな?」と思うことがあるだろう。
ちなみに、iPhone, iPad, Androidアプリとは、ペンやハイライト、テキスト挿入などの操作性が完全に共通しているので、Macでこのアプリが気に入った人は、自分の持っている端末全てにインストールしても良いと思う。
僕にとっては、大学院にいる間、Mac、iPad、そしてこのPSPDFKitが3種の神器であったと言っていい。
非常に細かい好みの話をすると、PDFにアノテーションを入れられるアプリは多数あるが、その中でも抜群の使い心地であると思う。一応そのマニアックな理由を挙げておこうと思う。
上記で紹介したPDF Viewerの無料版でも、PDFのページの削除などの基本的な編集機能と、赤ペン・ハイライトなどの注釈機能は備わっている。
一方で、PDFに元々入っているテキストを削除したり、画像やテキストを移動・編集したり、まるでWordドキュメントのようにPDFを改変できてしまう高機能なPDF編集アプリは、無料で利用できるものは筆者が知る限りない。
ビジネスシーンなどにおいては、元ファイルのWordがないドキュメントを、急ぎPDFの状態で書き換えたい、といったことがよく起きるため、PDFの作成編集を可能とする「Adobe Acrobat」などを利用している人もいるのではないか。
Adobe Acrobatは月額サブスクリプションで1,518 円/月〜であり、かなり高額と感じてしまう。
その点、数々のMac/iOSの人気アプリを開発しているReaddleという企業が開発する「PDF Expert」は、月額わずか508円、あるいは買い切りで一生使えるライセンスが10,700円と、圧倒的にAcrobatより低価格であるにもかかわらず、以下のような主要なPDF編集機能を備えている。
仕事などでPDFを編集する機会がある人、ペーパーレス化のために書類をスキャンする機会がある人などは、とりあえず買い切りライセンスを購入しておけば、Macで月額サブスクリプションなしで超快適なPDFライフが送れるようになる。
筆者も、大昔に購入したライセンスが残っており、命拾いしたことがある。元ファイルが見つからない契約書を更新したい、というトラブルが生じた時、PDF Expertが自分のMacに入っていることを思い出した時の安堵感といったら・・・。
7日間の無料トライアルもあるので、PDFを使用する機会がある人はぜひ一度使ってみることをオススメする。
iPhoneで人気のThingsなどのタスク管理アプリは、iPhone版は1,000円ほどで購入できるが、Mac版は5,000円とかなり高額である。
更に、ThingsはMacとiOSデバイスのみに対応しているので、例えば会社のWindows PCでタスクを見返したい、といったシチュエーションには不便だ。
それほど高機能で凝った機能がなくても良いので、タスクをシンプルに管理したい、という人には、Microsoft To Doがオススメだ。
Microsoftアカウントを作成すれば、iPhone, iPad, Windows, Androidなどにもアプリが存在しているので、1箇所で全ての自分のタスクを集中管理でき、更新した時にも自分の持つ全てのデバイスで同期される。
タスクをカテゴリごとにまとめてリストも作れるし、リマインドもセットできるし、To Doリストが備えるべき機能は全て備わっている。
この程度の機能でも、多くのToDoアプリは有料であることが多いが、Microsoft To Doは完全に無料で全ての機能を使い続けることができる。
無料でこれだけの機能をもつタスク管理アプリというだけでも貴重だが、元々、このアプリはWunderlistという美しいタスク管理アプリを作っていたスタートアップ企業をMicrosoftが買収したアプリなので、美観やユーザーインターフェースも十分なクオリティとなっている。
ぜひ使ってみて馴染むかどうか試してみよう。
DEVONthinkは、ありとあらゆる情報の全てを突っ込んでおくための総合文書管理アプリだ。
PDFはもちろんのこと、リッチテキスト、Markdown、WordやExcelファイル、Webページを魚拓として保存したもの、スクリーンショット、スクリーンキャプチャ、音声データまでを管理できる。
最大の特徴は、グループ・タグによる情報整理と、高度な検索機能、関連するドキュメントの自動表示、フラグやハイライトによる重要度付けが可能なことである。
例えば、ニュース記事からプログラミング言語のドキュメントまで、Web上のページを参照した際に、覚えておきたい箇所にハイライトをつけて、保存したいことが多々ある。
それをブラウザのブックマークで管理しようとすると、あっという間にぐちゃぐちゃになってしまい、昔見たページが発見できなくなってしまうだろう。
DEVONthinkのChromeプラグインを使えば、Webページをフォルダ分け・タグ付けした上で魚拓として瞬時に保存して、気になった箇所に蛍光ペンでハイライトを入れておくことができる。
たとえ記事のタイトルや保存したフォルダを忘れてしまっても、全てのドキュメントを横断検索できるのが心強い。
検索結果は関連度順で表示されるため、タグなどを手がかりにお目当てのドキュメントを発見できる可能性が高い。
僕の場合、過去に大学院の授業のために調べたPDF、論文、プレゼン資料、Webサイトなどは全てDEVONthinkに突っ込むようにしていた。
こうすることで、後から「あの授業の内容思い出したいな・・・」という時に、すぐさま当時読んだ情報の全てに触れることができる。
更に、iPhoneやiPadにも「DEVONthink To Go」というアプリがあり、iCloudやDropboxを経由して同期することが可能なため、全ての情報をモバイルに持ち出すことができる。
また、DEVONthink To Goには、この記事の冒頭で紹介した最強のPDFアノテーションツールであるPSPDFKitが組み込まれているため、PDFへのiPadでの書き込みと、そのMacへの同期までできてしまう。
本当に最強の文書管理ツールで、筆者の仕事と勉強のほとんどは、PDF ViewerとDEVONthinkによって成立しているといっても過言ではない。
また、ドキュメントのOCRにも対応しているため、画像データとしてスキャンしたPDFファイルなどにテキスト情報を付加することができる。Adobe AcrobatなどのPDFアプリを使わなければ、実現できないOCRが、DEVONthinkアプリ上で完結してしまうので、まさにオールインワンのデータベースアプリだと言える。
体験版もあるので、ぜひ一度使ってみるといい。
ただしこれは全然数百円では済まず、普通に1万円ぐらいするので、かなり使い込む予定の人でないと中々手が出ないかもしれない。学割で大幅に安くなるので、教育関係者は必見だ。
Macは当然ながら、ビジネスメールの確認やニュースの確認などにも利用できる。
しかし、単にブラウザでメールやニュースサイトをチェックするだけではなく、アプリを入れることで、さらに高機能で情報の管理が楽になるので、ぜひこういったアプリの導入も検討してほしい。
メールクライアントアプリは多数あるが、これまで多数のアプリを渡り歩いてきた筆者は、一番ベタとも言えるかもしれないSparkに落ち着いた。
Sparkは、App Storeで非常に有名なアプリ開発会社であるReaddleのアプリで、現在はMac, iPhone, iPad, Androidで利用できる。
最近搭載されたAI機能などを使おうとすると有料だが、基本的に必要な機能は全て無料で利用することができる。
なによりも便利なのは、多数のメールアカウントを一度Sparkに登録すると、それ以降に別の端末でSparkをインストールした時にも、勝手に全てのアカウントを引き継いでくれることだ。
複数のデバイスを持っているため、Macで自分が持っている全てのメールアカウントを入力した後に、iPhoneとiPadでも同じ作業を繰り返すのは非常に苦痛だったので、これだけでもSparkを使用する意味があると感じる。
かつてはiOSとMacだけに対応していたが、Android、ついにWindowsにも拡張して、あらゆるデバイスで同じメールクライアントを使用できるのが嬉しい。
使い心地としても、非常にシンプルで見やすい今風なデザインで、動作も申し分ない。
また、スマートInboxというメルマガなどを自動で振り分けてくれる機能もある。沢山のメールが来て、重要なメールとただの広告を見分けられなくて困っている、という人は、ぜひ使ってみると良いかもしれない。
特に、複数のメールアカウントを持っており、しかもPCやスマホなどの複数端末で新着メールをチェックしたいという人にオススメだ。
ReadKitは、RSSリーダーと、「あとで読む」系サービスのリーダーの両方を兼ねたアプリである。
「RSS」とは、Webサイトの更新情報を配信する仕組みだ。
例えばニュースサイトの米CNNのRSSを登録しておくと、CNNが新しい記事を公開した時に、見出しや本文が自動的に配信されてくる。
それを、新着メールを見ていくように、ざーっと目を通して、既読にしていきながら、気になる記事にしっかり目を通す、というような使い方ができる。
自分がいつも訪問するウェブサイトのRSSだけを集めていけば、自分専用のニュースアプリができるというわけだ。
FeedlyというRSSサービスにアカウントを作ると、自分の好きなRSSを登録して、MacやiPhoneアプリで同期して閲覧できる。
Feedlyへのログイン情報をReadKitに登録すれば、新着記事をReadKit上で読めるというわけだ。
ReadKitは、記事の見出しと本文の冒頭を次々と閲覧でき、しかも既読をつけた記事は非表示になるため、大量の情報を短時間で一気に処理するのに向いている。
また、ReadKitは、Instapaperなどの「あとで読む」系サービスとも同期して、保存した記事も表示できる。
「あとで読む」系サービスとは、気になったニュース記事などを保存しておけるクリッピングサービスの総称である。
筆者はInstapaperを利用しているが、SafariやChromeのプラグインや、iPhoneアプリを使って、気になったWeb記事などを1秒もかからず保存できる。
おすすめのワークフローとしては、お気に入りのニュースサイトのRSSが勝手に配信されてくるようにしておき、MacやiPhoneでReadkitを使ってRSSを流し見しながら、気になった記事を「あとで読む」に保存することだ。
会社や学校に行く通勤・通学の途中に、ニュースの見出しにざっと目を通し、落ち着いてしっかり読む時間が取れる際に、Instapaperに保存した記事たちをしっかりと読んでいくような使い方だ。
Feedlyのアカウント1つにログインして、RSSを使うだけであれば、無料で利用できる。
Instapaperのアカウントを追加したい場合など、複数のアカウントと同期するためには、プレミアムに課金する必要がある。
iOS/MacOS全て共通で使えて、ライフタイムプランで3,500円と少し金額はかかるものの、一度買い切り型なので、RSSサービスとInstapaperなどの後で読むサービスを使っている人は、購入して損はないだろう。
かれこれ僕も以前のバージョンから思い出せないくらいの長期間利用しており、十分元を取れていると思う。
アプリのダウンロードやインストール、アンインストール、ZIPファイルの圧縮や解凍など、よく使うユーティリティ関連でも優れたサードパーティーアプリが存在する。
Macで一度アプリをインストールすると、そのアプリを削除したとしても、システム上にデータが残ってしまうことがある。
これは非常に気持ち悪いので、アプリを削除する際に、関連するフォルダやファイルも全て探し出して削除したい。
この作業を、削除したいアプリのアイコンをドラッグ&ドロップするだけで全部やってくれるのがAppCleanerだ。
Appleのアプリストアからインストールしたアプリはもちろん、野良でインストールしたアプリについても、スッキリとアンインストールができるのが心強い。
メールで、複数のファイルをまとめて送る場合などに、たまに必要になるファイルの圧縮・解凍。
.zipならMacも対応しているが、.7zなど他の圧縮形式に遭遇したときに、いちいち必要なアプリを探して入れるのも面倒なので、最初に大半のフォーマットに対応したKeKaを入れてしまうことをオススメする。
KeKaは、MacのDockに入れておけば、アイコンにフォルダをドラッグ&ドロップするだけで圧縮してくれるなど、直感的に利用できるので便利だ。
また、大きなファイルを分割して圧縮することも可能なので、例えばGmailの添付容量を超えてしまうファイルを、2分割して送るという地味に便利な使い方もできる。
Appleのアプリストアでは700円の有料アプリだが、公式サイトからは無料でダウンロードすることができる。
Macで圧縮形式のファイルに困ったら、迷わずにKekaをインストールすることをお勧めする。
Macを使いこなし始めると、次々と便利なアプリをインストールしがちで、すぐにLauchpadがぐちゃぐちゃになってしまうだろう。
個人的には、Lauchpadの整理整頓は、Macのイケてない部分の一つだと思う。ドラッグしてフォルダを作るのも、いちいち非効率なアニメーションがついて腹立たしい。
先に紹介したAlfredに使い慣れてくると、Lauchpadは正直必要なくなるのだが、それでもあまりにごちゃごちゃのLauchpadは気持ち悪いし、アプリが見つからないストレスもやはり残る。
Launchpad Managerは、こうした悩みを解決してくれるツールで、1ライセンス7.99ドルで購入できる。
フォルダの作成などが容易になるほか、レイアウト(アイコンの並び順)を保存しておいたり、LaunchpadをABC順に一気にソートしたりといったことが可能になる。
筆者は、定期的にソートすることで、LaunchpadがABC順に綺麗に整理されている状態を保っている。
これは、正直いって個人の嗜好によるものなので、ごちゃごちゃでも気にならない人には必要ないかもしれない。
筆者は、学生時代からかれこれ11年以上に渡り、Androidを愛用してきた。
まだSIMフリースマートフォンが一般的になるずっと前から、海外から個人輸入した中華・台湾スマホを使ってみたり、常時スマホを2台持ちしていたり、マニアと言っても差し支えないであろうAndroidファンである。
一方で、iPhone, iPad, Macもずっと並行して所有しているのだが、Android端末は、Appleのデバイスにはない高度なカスタマイズ性が大きな魅力だと感じる。
本記事では、Androidスマホ・タブレットを10年以上使い倒してきた筆者が、本当に頻繁に使っている必須のアプリたちを一挙に30個紹介する。
これらのアプリを活用することで、あなたのAndroid生活はさらに便利になるはずだ。
Androidスマートフォン/タブレットを最近購入したという人から、長年のAndroidユーザーまで、知らないアプリが必ずあると思うので、是非参考にしてみて欲しい。
Androidにおける「ランチャー」とは、「ホーム画面」と「アプリ一覧」の外観と機能をカスタマイズするアプリである。
Androidでは、ランチャーを変更することで、アイコンの配置どころか、ジェスチャーに特化したホーム画面、見た目のカッコよさに特化したホーム画面まで、あらゆるカスタマイズが可能である。この点は、iPhoneに対する大きな優位性だ。
自分好みのカスタマイズができるだけでなく、別メーカーのAndroidスマホ・タブレットに機種変更をしたときにも、前の端末で使っていたランチャーアプリを引き継げば、使い慣れた環境を再現することができるというメリットもある。
ここでは、特にオススメな代表的ランチャーアプリを2つ紹介する。
ナイアガラ・ランチャーは、片手での操作に特化した、非常に実用的なランチャーアプリだ。ミニマリストやシンプルな画面を好むユーザーに特にお勧めだ。
ホーム画面には、「お気に入り」として登録した7つのアプリのアイコンだけが表示され、そのほかは時計とカレンダーのみのシンプルな画面構成になる。
ホーム画面右側にアルファベットのスライダーがあり、ここに触れると、アプリ名の順番でソートされた全てのアプリにアクセスすることができる。
スライダーは親指のみで操作できるので、端末を指一本でコントロールできるのがナイアガラ・ランチャーの強みだ。
たくさんのアプリから目的のアプリを見つけるのが大変そう、と感じるかもしれないが、このアルファベットのスライダーが驚くほどスムーズに動作するため、ストレスなく目的のアプリに辿り着けるのだ。
ナイアガラ・ランチャーをひとまずインストールして、一度でいいのでこの感覚を体感してみてほしい。
また、画面下から上にスワイプすれば、アプリの検索窓を瞬時に呼び出すこともできる。アルファベットスライダーでのアプリ選択が面倒であれば、検索をすることで代用できる。
実際のところ、毎日頻繁に利用するアプリは、7つくらいに限られている。その他のアプリはたまーに起動する程度なので、スライダーと検索窓を使えば、ストレスなく呼び出せる。
シンプルなホーム画面で雑念を取り払えるので、ごちゃごちゃしたホーム画面が嫌いな人には、ぜひお勧めしておきたい。
上述の「Niagara Launcher」は、かなり特徴的なランチャーなので、これまで使っていたAndroidスマホ・タブレットとあまりに使い心地が変わってしまい困る、という人には、標準的なランチャーに近い「Nova Launcher」をオススメする。
「Nova Launcher」は、アプリアイコンやウィジェットを自由に配置できる伝統的なAndroidのホーム画面に近いランチャーである。
使い慣れたレイアウトをベースにしつつも、当然Novaランチャーならではのプラスアルファのカスタマイズが可能になっている。
例えば、アイコンのサイズを自由に変えることができるので、不必要に大きいアイコンを縮小し、ホーム画面に沢山のアプリを配置できる。
iPhoneでは、どれだけ大画面になろうと、ホーム画面に配置できるアプリの数や、アプリアイコンのサイズが決まっているので、折角の画面サイズが無駄になりとても不自由だが、Androidはそういったカスタマイズも可能なのが嬉しい。
また、検索バーの位置なども変更できるので、自分が使い慣れたレイアウトにすることができる。
外部のウィジェットに殆ど対応していないナイアガラ・ランチャーと異なり、Novaランチャーは、アプリのウィジェットにも対応している。
新着メールやToDoリストをホーム画面に配置したり、カレンダーや天気予報を配置したり、あらゆるカスタマイズが可能だ。
通常、Androidスマホやタブレットを購入すると、その端末メーカーのランチャーがプリインストールされている。
例えば、XiaomiであればXiaomi専用の機能が色々ついたランチャーが、SonyであればXperia専用の機能が色々ついたランチャーが採用されている。
そうすると、Xperiaを使っていた人が、XiaomiのAndroidスマホに乗り換えると、突然UI ・UXが変わってしまい、使い慣れているはずのAndroidなのに、操作に戸惑うことがある。
そこで、普段からNova Launcherを使っておけば、Xperiaのホーム画面を、そのままXiaomiのAndroidスマホでも使い続けられるので、機種変更のストレスが軽減される。
カスタマイズ性を考えても、AndroidユーザーであればNova Launcherはぜひ使っておきたい。
Androidユーザーである以上、写真やファイルの保存先として、まずはGoogleドライブを利用することになる人が多いだろう。しかし、Googleドライブで得られる無料の容量はわずか15GBで、Gmailの容量とも共有なので、写真や動画であっという間に一杯になってしまう。
ここでは、現代人の必需品となったクラウドストレージアプリの中でも、無料でもらえる容量が特に大きいお得なサービスを紹介する。
また、クラウドに限らず、AndroidとWindows, Macなどデバイス間でファイルを共有するにあたり便利なツールも紹介する。
無料でもらえるストレージ容量が「10GB」を超えるクラウドアプリはとても貴重だ。筆者が厳選した、無料でもらえる容量が大きいおすすめクラウドサービスは以下の3つだ。
サービス | 容量 | 特徴 |
---|---|---|
1. pCloud | ・無料でも10GB ・買い切りプランあり | ・音楽、写真、ビデオに最適なアプリ ・バージョン履歴、暗号化など機能充実 |
2. Icedrive | ・無料でも10GB ・買い切りプランあり | ・独自の暗号化アルゴリズム ・pCloudより少し高い |
3. Sync.com | ・無料でも5GB (超頑張れば25GB) | ・最大20人紹介で25GBを一生使える |
中でも、筆者が実際に2TBのライフタイムプランを契約しており、特にお勧めしたいのが「pCloud」である。
「pCloud」は、スイス発のクラウドストレージ企業で、無料で10GBの容量がもらえるので、Googleドライブと合わせて25GBの無料ストレージを手に入れることができる。
無料ユーザーであっても、15日間のバージョン履歴や、オフラインアクセス、外部への共有リンクの生成など、他のクラウドの有料版にしかないような機能が全て揃っている。
音楽・動画ファイルを直接再生できるプレイヤーがAndroidアプリに組み込まれていたり、写真の自動アップロードにも対応していたり、純粋にアプリの完成度が高く、スマホ・タブレットで使う上でも快適だ。
さらに、もし10GBを超えてしまう場合でも、毎月のサブスクリプションではなく、「1回買い切り」の大容量のライフタイムプランが存在するのが大きなメリット。
写真や動画をクラウドに同期すると、一瞬でクラウドの無料容量は埋まりがちだ。やむをえず、毎月クラウドストレージに数百円〜千円ほど課金している人も多いのではないか。しかも、クラウドは一度課金し始めると解約するハードルが高く、サブスク料がずーっとかかり続けてしまうサブスク地獄に陥る。
pCloudならば、もし保存するファイルが10GBを超えても、月額サブスク料不要で、大容量のストレージをとても安価に使い続けられるので安心だ。
例えば、5GBのストレージが199ドル、2TBのストレージが299ドルの1回の支払いで、一生涯使い続けることができる。
高額にも思えるが、一生壊れることのない2TBのSSDを1枚買うようなもので、経済合理性は高い。
Dropboxの場合、2TBのストレージで14,400円が毎年かかるので、3年使う予定があるのなら、元が取れる計算である。
2TBもあれば、スマホで撮影した写真や動画をすべてpCloudに自動アップロードしていても、使い切るには長い年数がかかることだろう。筆者自身、2TBのライフタイムプランを契約しているが、5年経った今も、全然使いきれていない。
Androidスマホで撮影した写真を自動アップロードしておくと、アップロード済みのファイルは一括削除ができるので、スマホ本体の容量を節約することができる。
クラウドサービスの選択で迷ったら、とりあえずpCloudを選択しておけば間違いがないだろう。
もう一つのおすすめクラウドサービスが、Icedriveである。何より、pCloudと同様に、無料で10GBものストレージが手に入るのが嬉しい。
より新しく、知らない人も多いであろうクラウドサービスだが、2019年に登場したばかりのイギリス発のサービスである。
Androidで撮影した写真や動画の自動アップロード機能や、クラウド上のメディアファイルの直接再生機能も備わっている。
Icedriveの最大の特徴はセキュリティへの配慮で、現在のクラウドサービス各社が使っている一般的な暗号化プロトコル(AES 256-bit)とは、異なるプロトコル(Twofish)を採用している。
マイナーな暗号化プロトコルを使用するメリットは、ハッカーから狙われにくくなることだ。
また、有料プラン限定だが、「Encrypted storage」というフォルダが利用可能で、このフォルダ内に入ったすべてのファイルは、ユーザー側で暗号化され、Icedriveの社員ですら中身を見ることが不可能になる。
他社のクラウドサービスと比べ、より安全性が高いと言える。無料ストレージの大きさ以外に決め手があるとしたら、こうした安心感でサービスを選ぶのも良いだろう。
また、Icedriveもライフタイムプランを提供しており、10GBの容量が足りなくなったら、将来、一回買い切りで大容量のストレージ容量を確保することも可能だ。
Googleドライブ+pCloud+Icedriveを使えば、3つのサービスを合わせて45GBもの無料ストレージが得られるので、しばらくは乗り切れるだろう。
Androidスマホ・タブレットには、端末内のストレージのフォルダ階層を閲覧し、ローカルファイルに簡単にアクセスできる「ファイルマネージャー」が最初から備わっている。
それを高機能にしたものが「Solid Explorer」アプリである。
重要なファイルを保護するために、パスワードや指紋認証による隠しファイルを作ることができたり、Dropbox、Google Driveなどの主要なクラウドストレージサービスを一括で閲覧することができたり、通常のファイルマネージャーよりもずっと高機能である。
複数のフォルダを開くと、「バックグラウンドセッション」という欄にどんどんタブが開いていき、フォルダの間を行き来しながら操作できるのがとても便利だ。
また、操作性としても、パソコンでマウスを使ってファイルを操作するのに近い感覚で、直感的にファイルを移動できるのがポイントだ。
ファイルをタップして長押しすれば、ドラッグ&ドロップ操作でフォルダを移動することができる。
スマホやタブレットでは、どうしてもPCと比べるとフォルダ・ファイルの操作が面倒くさいものだが、Solid Explorerを使うことで、かなりの程度負荷を軽減できる。
SDカードを使ってストレージを拡張している場合など、Android端末の内部ストレージを頻繁に閲覧・編集・コピー&移動ことが多い人は、迷いなくSolid Explorerの導入をお勧めする。
「Pushbullet」は、Androidスマホ・タブレットと、WindowsやMacとのデータの受け渡しや、連携をスムーズにしてくれるアプリだ。
主に、以下のような機能を備えている。
パソコン側では、Google ChromeのプラグインなどとしてPushbulletを利用可能であり、ブラウザで開いているWebページを、自分のスマホに送信できる。
自分のパソコンと自分のスマホの間でのメッセージアプリのように動作するので、パソコンから送ったリンクやファイルが、チャットのようにスマホ側に表示される。
画像などを添付することもできるので、スマホで撮影した写真をパソコンに送ったり、パソコンで作成した画像をスマホに送ったりといったことが簡単にできるようになる。
スマホに届いた通知や、SMSメッセージもパソコンに表示することができるので、パソコンでの作業中にスマホを一切触ることなく、スマホに来た通知を把握・メッセージの送受信までできてしまう。
iPhoneの場合、Macとの間で自動でクリップボードが共有されたり、Airdropを使って画像ファイルを簡単に送受信できるが、Pushbulletアプリを入れることで、似たようなことが実現できる。
PCとスマホを組み合わせて利用する機会が多い人には必須のアプリである。
「Windowsにリンク」は、Pushbulletと似た機能を持つアプリだが、Androidスマートフォンの通知、メッセージ、写真、画面などをWindows PCで確認・操作できるようにすることに特化した、Microsoft公式のアプリである。
スマートフォンの画面をPCにミラーリングすることまで出来てしまうので、より大きな画面でモバイルアプリを使用したり、キーボードとマウスを用いて操作したりすることが可能となる。
Macユーザーは残念ながら利用できないが、Windowsユーザーであれば、迷いなくPushbulletよりもこちらを使う方がお勧めだ。
TickTickは、タスク管理・カレンダー・習慣トラッキング・ポモドーロタイマーが入ったオールインワンアプリだ。
基本的な機能は無料で利用でき、一般的なToDoアプリやカレンダーアプリに備わっている大抵の機能を、TickTickだけで完結させることができる。
Android、iOS、Windows、macOSなど、複数のプラットフォームにも対応しているので、端末を跨いで同期することもできる。
中心となる機能は、チェックリスト式のToDoリストを作成・管理する機能で、タスクごとに期限・リマインダー・優先度・タグを設定することができる。
豊富なビューの切り替えが可能で、上記のようなリスト形式だけでなく、複数のボードを並べられるカンバン形式、日付順に並べるタイムライン形式(プレミアム限定)などを選択できる。
こうしたリストは複数作ることができるので、買い物リストから、仕事、プライベートの予定管理まで、幅広く応用が効く。
TickTick内で、Googleカレンダーなどと同期してカレンダー表示も利用できるので、ToDoだけでなく、予定の管理もTickTickで完結させることができる。
また、TickTick独自の機能として、習慣トラッカーがある。水を飲む、運動をするといった習慣化したいことを設定しておくと、実行した際にタップして、何回達成したかなどを記録することができるようになる。
また、こうしたタスク管理アプリでは珍しく、「ポモドーロタイマー」が内蔵されているのも特徴だ。
ポモドーロメソッドとは、25分の集中と5分の休憩を繰り返すことによって、集中力を維持して作業を効率よく進めるメソッドだ。
25分のタイマーだけでなく、ホワイトノイズを流す機能が内蔵されているので、カフェなどでイヤホンをつけて集中することができる。
実行したポモドーロの回数は、「今日のポモ」としてアプリ内で記録が残るため、ポモドーロを何回転させたかが視覚的にわかり、達成感も得られる。
ToDo管理アプリを探している人は、とりあえずTickTickを選んでおけば、すべてのニーズを満たすことができるだろう。
日常のタスク管理だけでなく、水を飲む、トレーニングする等々の習慣を身につけたい場合や、普段の仕事や資格取得に向けた勉強で集中したい場合にも、TickTickは最適だ。
TickTickに比べて非常にシンプルだが、必要十分なToDo管理機能を備えた完全無料のアプリがMicrosoft To Doである。
「買い物」「仕事」など複数のリストを作成し、それぞれのリスト内にシンプルなToDoを作成できるものだ。
個々のToDoごとに期限日やリマインダーなどもセットできるので、「今日の予定」など日付範囲でフィルタすることもできる。
いわば、TickTickのToDo管理機能だけを抜き出したようなシンプルなアプリだ。
Microsoft To Doの特徴としては、家族や同僚とのタスク共有機能を備えており、Microsoftアカウントを持っているユーザーとリストを共有できることが挙げられる。
例えば家族で「買い物リスト」を共有しておけば、リアルタイムで足りない食材などをシェアできるので、牛乳を家族の2人が買ってきてしまう、といったことを防げる。
もちろん、仕事でプロジェクトごとにリストを作成し、必要なメンバーをアサインして共同でToDoを管理するといった使い方も可能だ。
シンプルでありながら、Microsoftアカウント同士での共同作業が可能で、必要十分な機能が揃っているので、TickTickのような高機能すぎるToDoアプリよりも、シンプルなアプリを好む人は、ぜひこちらを使ってみることをお勧めする。
「Tide(潮汐)」は、海の音、森林の音などのリラックスできる環境ノイズが豊富に揃っている集中・睡眠アプリである。
ポモドーロタイマーが付属しているため、森林の音を聞きながら、25分の集中、5分の休憩を繰り返して作業を進める、といった使い方ができる。
アプリのインターフェースもとてもシンプルで、邪魔なものがなく、広告も出ないので、勉強のお供として最適で、筆者も非常に気に入っている。
無料で利用できるサウンドの種類も結構豊富で、海、森、雨、焚き火、麦畑、虫の声、雪山、ピアノ音などが利用できる。
ノイズキャンセリングイヤホンやヘッドホンと相性抜群で、騒がしい環境でも、作業に超集中することが可能なので、仕事や勉強で集中したい人はぜひ一度使ってみてほしい。
Forestは、遊び心ある集中タイマーアプリだ。ゲームのような感覚で、勉強習慣を身につけることができる。
こちらも25分集中と5分休憩を繰り返すポモドーロメソッドを採用したアプリだが、Forestならではの特徴は、タイマーを使った回数を増やすことで、木が植えられて森へと成長していくプロセスが楽しめることだ。
集中した時間をトラッキングすることで、勉強のモチベーションを高めることにもつながるが、それが「森を育てる」という視覚的にわかりやすい形で表示されるのがポイントだ。
普通のポモドーロタイマーではなかなか習慣化できない・続かないという人は、Forestも試してみることをお勧めする。
「Notion」は、ノート作成・管理、プロジェクトマネジメント、データベース作成、ウィキページ作成など、あらゆる機能を備えた超高機能ノートアプリだ。
AndroidだけでなくWindows, Mac, iPhone, iPadなどにも幅広く対応しており端末間の同期も可能だし、EvernoteやGoogle Keepなどのシンプルなノートアプリより圧倒的に高機能でありながら、無料で利用することができる。
文章や画像、ビデオ、埋め込みのカレンダーやタスクボードなどを組み合わせた「ページ」をユーザー自身が作成することができるので、一般的なテキストノートに限らず、ToDoリスト、家計簿、読書記録、筋トレログまで、あらゆるデータの管理に活用できる。
あまりに高機能なので、どこから始めればいいのか圧倒されてしまうが、日記や読書などの暮らし・生活系から、顧客管理や議事録などのビジネス系まで、多種多様なテンプレートが用意されているので、テンプレートを使えば初心者でも簡単に使用開始できる。
例えば、テンプレートからタスク管理を選ぶと、以下のようなカンバン形式のタスク管理ボードを瞬時に作成できる。
しかも、フィルターを適用したり、カレンダービューに切り替えたり、期限・リマインダー・優先順位等を設定したり、To Do管理のためだけに作られた専用アプリと比べても、全く遜色ない機能が実装されている。
Notionの高度なカスタマイズ性を実現しているのは、ページの中にページを埋め込んだり、ノート同士をリンクさせたり、外部のウェブサイトへのリンクを埋め込んだりといったことが柔軟に可能な点である。
例えば、「リーディングリスト」というノートブック内に、読みたい書籍、気になるブログ記事、新聞社のニュース記事などを保管していき、さらに個々の書籍タイトルをクリックすると、その書籍を読んだ時のノートが出てくる、というような入れ子構造を簡単に作ることができる。
複数人での共同編集も可能なので、Backlog, Trello, Asanaなどのプロジェクト管理ツールや、EvernoteやDropboxなどのドキュメント共有ツールをバラバラと使うのではなく、Notionに統一してしまい、会社・チームの全てのドキュメンテーションをNotion上で完結させてしまう、といったことすら可能だ。
あまりにも出来ることが多いため、多数の入門書籍まで販売されている。
ここで全ての機能を解説することはできないし、初心者が最初から全体像を理解するのも困難だろう。
まずは単純なノートの保存場所として、Notionの基本機能を使ってみて、気に入ったら解説書を買ってみたり、YouTubeで解説動画を見てみたりすれば、徐々に機能の全貌が見えてくるはずだ。
Obsidianもまた、端的に言えばNotionのようなノートアプリだが、独自の魅力・特徴を有する。
Obsidianは、「Markdown」という形式のプレーンテキストファイルを編集するアプリである。NotionやEvernoteのようにクラウドとの接続が必須ではなく、ローカルにあるMarkdownファイルを管理できる。
Obsidianで編集・整理できるテキストファイル・フォルダは、端末内に存在しているので、他のアプリからも普通に開くことができるのだ。
もちろん、端末間で同期したければ、クラウドと接続することも可能だが、あくまで「テキストファイルがユーザーの手元にある」ことが徹底されている。
Obsidianの開発者は、単一のアプリやクラウドに依存することなく、汎用的なファイルをユーザーが所有・活用できるようにすべき、という「File over app(アプリよりファイル)」哲学を提唱しており、それがObsidianの独自のスタンスに繋がっている。
ただ、そもそも「Markdown」が何か聞き慣れない人もいるかもしれない。
Markdownとは、通常のテキストファイルに、アスタリスクやハイフンなどの記号で装飾をつけるだけで、太字や箇条書きなどのフォーマットが可能になる形式だ。
例えば、## 見出し2
とシャープ記号の数で見出しを設定できたり、**ここが太字になる**
とアスタリスク記号2つで文字を囲むと太字になったり、==ここが蛍光ペン==
というようにイコール2つで文字を囲むとハイライトされたりする。
記号だけでテキスト装飾ができるので、Wordと比べて動作が非常に高速で、慣れれば全ての文章をMarkdownで管理したくなるほどだ。
また、これらの記号は暗記しなくても、Obsidianのキーボード上部にショートカットボタンが設置されているので、Markdown初心者でも使える。
また、[[ノート名]]
と打ち込むだけで、他のノートを埋め込んでリンクさせることも可能なので、Notionほどではないが、高度なデータベースを構築できる。タスク管理などテキストベースの用途には様々応用可能である。
さらに嬉しいのは、「Canvas」というマインドマップを作れるオープンソースのファイル形式もサポートしていることだ。
矢印やボックスを組み合わせたグラフを非常に簡単に作成することができる。ここにノートや画像を埋め込むことも可能なので、ノート同士を繋げて知識を体系的に管理することができる。
Obsidianは、インターフェースも美しく、またファイルをローカルで管理することで、Mac, Windows, Android, iPhoneなどあらゆる端末にまたがって利用できるので、筆者が最も高頻度で利用するアプリの一つである。
Obsidianでのノート術を解説する書籍などもあるので、まずはぜひ使って魅力を体験してみてほしい。
iA Writerも、Obsidianと同じMarkdownエディタアプリである。AppleのApp StoreのApp of the Yearを3度受賞しており、これまた独自の魅力でファンが多い。
集中して文章を打つためのアプリと謳われている通り、とにかく雑念を消して、文章を書くことに専念できる工夫が様々施されている。
「Focus Mode」をオンにすると、現在編集中の行だけがくっきり表示され、他の行が薄く隠れる。今書いている部分に没頭できるため、作業が捗る。
もちろん、プレーンテキストの入力だけでなく、Markdownに対応しているため、見出し、箇条書き、太字などを瞬時に反映することができる。
iA Writerもまた、クラウドサービスに依存せず、端末内に保存されているテキストファイルを編集することができる。
したがって、iA WriterとObsidianで、フォルダを共通にしておけば、同じファイルを両方のアプリで編集することも可能である。フォルダ構造はObsidianでベースを作っておいて、集中して文章を書きたいときはiA Writerを使う、という使い分けができる。
もちろん必要があれば、保存先をDropboxやGoogleドライブなどのクラウドサービスのフォルダ内にしておけば、クラウドにバックアップし、他の端末でも同期することができる。
筆者は、iA Writerが特に軽量で高速に動作するため、とにかくなんでもメモを取りたい時には、真っ先にiA Writerを立ち上げて、フォルダ構造も整理も気にせずに、メモを貯めていくようにしている。
PSPDFKitが公開しているPDF Viewerは、非常に高機能かつ使いやすいPDF閲覧アプリだ。iPhone版やiPad版のアプリも存在し、人気を博している。
PDF Viewerには、豊富な注釈機能があり、PDFファイルのテキストにハイライトしたり、矢印や図形の挿入、手書きメモの挿入などが非常にスムーズにできる。
筆者も長年にわたるファンで、資格勉強や大学院での勉強に大大大活躍してもらった。
メモのスムーズな入力や削除、直感的なページ送りなど、勉強や読書をしている時に、最も紙に近い感覚で、違和感なく利用することができると感じている。
PDFファイルは、端末内に保存しているファイルだけでなく、GoogleドライブやDropboxなどのクラウドストレージから読み出すことも可能だ。
クラウド上のPDFファイルを編集すれば、スマホで入力したコメントや注釈が、他の端末でも同期して閲覧することができる。
読書や勉強を、タブレット端末とスマホで同期しながら行うことができてとても便利だ。
言わずと知れた「ChatGPT」は、OpenAIが開発する大規模言語モデルとのチャットができるアプリだ。テキスト・写真・音声によってAIに指示や質問を投げかけると、AIが的確な回答をしてくれる。
現在では、非常に高性能なGPT-4oモデルも、利用回数に制限はあるが無料ユーザーでも利用でき、課金をしなくても素晴らしい性能のAIとチャットをすることができる。
ビジネスメールを代わりに書いてもらったり、Excelやスプレッドシートの関数の書き方を聞いてみたり、なんでも分からないことを説明してもらったり、日常生活からビジネスシーンまで、あらゆるタスクの助けとなる。
中でも、スマホアプリ版のChatGPTのメリットは、スマホで撮影した写真を添付して、即座に回答をしてもらえることだ。
例えば、ドイツ土産の入浴剤をもらった時、パッケージを見てもドイツ語で全然分からなかったので、写真に撮ってChatGPTに入浴剤の使い方を聞いてみると、バッチリ解説をしてくれた。
翻訳アプリにドイツ語を書き写すこと自体が難しいし、写真を見せるだけで、AIが要約してポイントだけ簡潔に日本語で伝えてくれるので、内容を理解できるスピードと精度が段違いだ。ChatGPTを使用する場合ならではの利点だ。
また、音声モードを使うと、リアルタイムでのAIとの会話も可能だ。
チャット画面の右下にある波形のようなマークをタップすると、以下のようなボイスモードのインターフェースが表示される。
有料ユーザーの場合、リアルタイムで映像やスクリーンを共有する機能も追加されたので、Androidスマホで周囲の状況を撮影しながら、それについてChatGPTと音声で会話ができるというまさに未来な体験をすることができる。
ボイスモードでは、ユーザーの発話の切れ目を勝手に認識して、AIが喋り始めるので、かなり自然な会話が可能だ。
英会話の練習に付き合ってもらうこともできるし、海外旅行中に、同時通訳をやってもらうこともできる。
当サイトの他記事で、ChatGPTのスマホアプリをポケトークのような同時通訳デバイスとして使う方法も解説しているので、ぜひ参考にしてほしい。
Perplexityは、ChatGPTほどの知名度はないかもしれないが、同じくAIを活用したチャット&Web検索アプリだ。
Perplexityの特徴は、AIがネット上の情報ソースを検索して、最新の情報を読み取り、その上で回答を生成してくれる点にある。
通常、ChatGPTなどの大規模言語モデルは、モデルの学習時に使ったデータに含まれる知識しかないため、例えば今日リリースされたばかりのアプリの情報など、最新の情報については何も答えられない。
この点、Perplexityは、リアルタイムのWeb検索の結果をAIが読み取ってから回答を生成するので、今日リリースされた最新のアプリについても、回答することができる。
例えば、Googleが日本向けにリリースしたばかりのNotebookLMについてPerplexityのアプリで聞いてみる。
普段であれば、Google検索で「NotebookLM できること」などと検索するところ、Perplexityに「NotebookLMでできることをまとめて」と指示してみた。
すると、多数のWebサイトやYouTube動画を参照した上で、それらの情報を統合して、箇条書きで回答を生成してくれた。
Web検索をするとたくさんのWebサイトが表示されて、一つ一つ開きながら内容を確認して行かねばならないところ、Perplexityは、AIが全てのWebサイトを代わりに読んでくれて、的確な情報だけを要約して整理してくれるのが大きなメリットだ。
Google検索やYahoo!検索などのWeb検索ツールを、AIの力で置き換えることを目指すサービスである言える。
無料版でもAIによるWeb検索は利用できるが、月20ドルを払って有料版にすると、回答の生成に使われるAIモデルを選択することができる。
OpenAIが開発するGPT-4o、Anthropicが開発するClaude 3.5 Sonnetなど、他社の最新かつ最高性能のAIモデルを利用できる。
したがって、テキストチャットを中心に利用する人であれば、ChatGPTを使わずとも、Perplexityだけで実質ChatGPTと全く同じGPT-4oモデルを利用できてしまうので、わざわざChatGPTに課金する必要はなくなる。
Perplexityでは回答の生成時に「フォーカス」を指定して情報ソースを限定できるのだが、その際に「作成」モードを選べば、WEB検索などを行わず、純粋にAIの力だけで回答してくれるので、本当にChatGPTとチャットしているのと変わらない状態にもできる。
複数のAIアプリに課金していくと、どんどん料金が積み上がってしまうので、Perplexityに1本化するのも結構アリな選択肢だ。
有料会員登録をする場合、初月の料金が10ドルオフになるクーポンもあるので、ぜひ試してみて欲しい。
「Gemini」は、Googleが開発する生成AIだ。Geminiもまた、OpenAI社のChatGPT/GPT-4oや、Anthropic社のClaude 3.5 Sonnetなど、最高に近い性能を持つモデルの一つである。
アプリ版の機能としてはChatGPTに非常に近く、チャット形式で様々な質問をGeminiに投げかけることができるアプリだ。
現在は、無料ユーザーであっても、GPT-4oクラスのGemini 2.0 Flash ExperimentalなどのGPT-4oクラスの最新モデルを、制限なしで利用することができるので、AIアプリに課金したくないユーザーの入り口として、現状ベストと言えるかもしれない。
また、Geminiならではの優位性として、GmailやGoogleドキュメントなど、Googleのサービスと緊密に連携することができる点が挙げられる。特に、メールの代筆をGeminiに依頼して、それをそのままGmailの下書きとして保存する、といったことができるので便利だ。
例えば、「大家さんに退去を伝えるメール」と言ってみると、そのままメールとして使えそうな文案が生成された。
AIの回答の右下にあるメニューボタンをタップすると、「Gmailで下書きを作成」などのメニューが現れる。Gmailアプリでメールの続きを書けば、面倒なメールの作成作業も省力化できる。
さらに、ChatGPTのボイスモードと同様の音声会話機能「Gemini Live」も実装されており、口頭だけでGeminiとの会話をすることも可能だ。
AIの可能性はどんどん広がっている。
「DeepL」は、非常に高性能な翻訳アプリケーションである。翻訳に特化したAIの力で、スピーディーかつ正確に翻訳されるので、ChatGPTなどの汎用AIを使うよりも便利なことも多い。
PC版やブラウザ版でも広く知られているが、Androidアプリもリリースされており、スマホで快適に使用することができる。
Android版のDeepLの主な機能として、テキスト翻訳だけでなく、音声入力での翻訳や、カメラで撮影した写真の翻訳が挙げられる。
アプリを開いて、テキストを打ち込んだりコピペしたりすると、瞬時に翻訳される。入力する言語は自動で検出されるので、そもそも何語かすら分からない文章でも、ドイツ語なのかスペイン語なのかロシア語なのかなどを自動で判別して翻訳してくれる。
また、マイクを使って音声入力することで、話した内容をリアルタイムで翻訳できるので、海外旅行中のちょっとしたやり取りなどで重宝する。
さらに、カメラで撮影した画像内のテキストを認識し、翻訳することも可能なので、パッケージや看板の外国語が読めない時に、DeepLのアプリで撮影すれば日本語に翻訳できる。
DeepL for Androidは、無料で利用可能であり、広告表示もない。
日常生活でも、海外旅行などの機会にも、ぜひ持っておきたいアプリの一つだ。
「スピーク」は、AIとの非常に自然な英会話ができるアプリだ。
こちらが言った言葉に対して、AIがちゃんとリアクションをしてくれるので、教科書のような台本のある勉強ではなく、生きた英語を練習することができる。
最近のAI技術の発展によって、本当に信じられないほど自然な会話が可能なので、是非一度は騙されたと思って試してみて欲しい。
アプリを開くと、さまざまなトークテーマがあり、各テーマでAIとの英会話を楽しむことができる。
例えば、海外旅行に行く前に、緊張しがちな「入国審査」のトピックを選択して練習しておくと、入国審査でよく聞かれることを予め把握できる。
AIとのトークでは、まずAIが話しかけてきて、それに対してこちらが音声で答えた内容が、自動的に聞き取られて、画面に表示される。
なお、「初心者モード」をオンにしていると、AIの発言が英語で表示されるだけでなく、日本語訳もその下に表示される。さらに、次の自分の発言のヒントも表示されるので、英語初心者であってもサクサク英会話の練習ができる。
もちろん、中上級者であれば、翻訳の表示をオフにしたり、ヒントの表示もオフにして、普通に人間と会話するかのように練習することも可能である。
相手がAIなので、どれだけ間違えても恥ずかしくないし、自分の発言に対してよりよく改善するための指摘までAIが行なってくれるので、大量に練習して、どんどん上達することができる。
自分で英会話の練習をするのはもちろん、子どもに英語の勉強をさせるのにも最適だ。
オンライン英会話を使っている人は、是非一度スピークのアプリも試してみることをオススメする。
メールを確認するためのアプリは多数存在し、Androidスマホの場合、デフォルトでGmailアプリが入っていたり、端末のメーカーオリジナルのメールクライアントアプリが入っていたりする。
しかし、Gmailアカウントを複数持っている場合や、Yahooなど他社のメールアカウントを持っている場合など、複数のメールを一箇所でまとめてチェックしたい時には、「Spark」というメールアプリがおすすめだ。
様々なMac, iPhoneアプリなどで人気の「Readdle」という企業が開発するアプリで、シンプルで美しいインターフェースで、あらゆるメールアカウントを管理できる。
スワイプすることで未読・既読の切り替えや、アーカイブができるので、直感的にメールを処理することができる。
また、スマート受信ボックスをオンにすると、メルマガや通知メールなどをまとめて表示してくれるので、無駄なメールが隠され、受信ボックスがスッキリ片付く。
Gmail, Yahoo, Outlookはもちろん、ほとんどのメールサービスに対応しているため、多数のアカウントの受信トレイを1つのアプリでまとめてチェックすることができる。
しかも、一度Sparkにログインしたメインアカウントを使って、Android, Mac, Windows, iPhone, iPadなどあらゆるデバイスのSparkアプリにログインすると、全てのメールアカウントの設定が引き継がれる。
機種変更をするたび、新しいデバイスを購入するたび、多数のメールアカウントのログイン情報を入力し直す面倒くささから解放される。
無駄なメルマガやサービス通知を一掃したい人、メールアカウントを一箇所にまとめたい人、複数のデバイスを使っている人は、ぜひ一度Sparkを使ってみることをお勧めする。
Feederは、オープンソースのAndroid用RSSリーダーアプリである。
「RSSリーダー」とは何か知らない人も多いかもしれないが、RSSとは、Webサイトの新着情報を配信する仕組みである。
あらかじめ、お気に入りのニュースサイトのURLをFeederに登録しておくと、そのサイトの新着記事が自動的に「未読記事」としてFeederアプリに表示される。
よくチェックするWebサイトやブログがある人は、それらをまとめてFeederに保存しておくだけで、いちいちWebサイトを訪問しなくても、新着情報が勝手に届くのだ。
表示された未読記事から、気になるタイトルの記事だけをクリックすれば、直接その記事だけを読むことができる。
通勤・通学途中に、Feederの新着情報をチェックして、気になる記事を読んでいけば、毎日のニュースへのキャッチアップも容易である。いわば、自分だけの新聞・自分だけのニュースアプリを、簡単に作ることができるのだ。
更新情報をチェックしたいウェブサイトは、「フィード」として登録していく。そのWebサイトのURLを入力するだけで、自動でRSS情報を取得してくれる。
さらに便利なのは、この後で紹介するInstapaperなどの「あとで読む」サービスとの連携である。
Feederで新着情報をざっと大量にチェックして、共有メニューから気になる記事をすべて「あとで読む」サービスに送っておくことで、時間があるときに重要な記事だけをじっくり読むことができるのだ。
InstapaperやPocketなどで知られる「あとで読む」アプリは、ニュース記事やブログ記事などのWebページを、お気に入りに登録するほどではないが、あとで読むために保存しておきたい時に便利なアプリだ。
通勤・通学の途中にTwitterで見つけた面白そうな記事などを、あとで見失わないように、InstapaperやPocketに保管しておくような使い方が典型的だ。
Instapaperのアプリをインストールすると、他のアプリの「共有」メニューに、「Add to Instapaper(Instapaperに追加する)」というメニューが表示されるようになるので、ブラウザでWebページを閲覧している際などに、共有メニューからInstapaperに記事を保存できる。
Instapaperのアプリを開くと、保存した記事のタイトルとサムネイルが一覧で表示される。
フォルダ分けすることも可能なので、大量の記事が溜まってきたら、ジャンルごとに整理することなどもできる。
最もおすすめの使い方は、先に紹介したFeederアプリで、いつも巡回するWebページの新着記事情報を取得して、通勤・通学の途中にタイトルを流し読みして、気になった記事をInstapaperに保存していくことだ。
移動時間を有効に活用して大量のニュースをザッピングしつつ、重要な情報をあとでしっかり腰を据えて読む、という使い方ができる。
大量のニュースや記事を処理する最適な方法だ。
「パスワードマネージャー」とは、アカウントID・パスワードの組み合わせを保管しておいて、ブラウザなどで自動入力してくれるアプリを指す。
スマホやタブレットのGoogle Chromeなどのブラウザで、ログイン画面を開くと、キーボード上部に自動入力候補が表示され、指紋認証するだけで入力してくれる。
個人がさまざまなWebサービスで大量のアカウントを持つことも珍しくなくなった昨今、すべてのサービスのパスワードを覚えておくのは不可能だし、かといって1つのパスワードを使い回しているとセキュリティリスクが非常に大きいため、もはやパスワードマネージャーは現代人に必須のツールである。
Bitwardenは、パスワードマネージャーの代表的アプリの一つであり、他のアプリが有料必須のプランも多い中、無料プランでも主要な機能がすべて利用できるのが大きな魅力だ。
新しいアカウントを作るときには、Bitwardenでログイン情報を作成すれば、非常に強固なパスワードを自動で生成してくれる。
しかも、これをBitwardenアプリ内で安全に保管できるので、自分でパスワードを覚えておく必要がない。
Bitwardenそのものは、マスターパスワードを入力してログインするので、マスターパスワードを1つだけ覚えておけば、あとは数百のアカウントに自動入力でログインすることができる。
Bitwardenのログインには、無料ユーザーでも、メールへのワンタイムパスワードの送付、後述のAuthyによる2段階認証を設定できるので、たとえマスターパスワードが漏洩しても、自分以外はログインできず安全だ。
利便性を高めながら、さまざまなサービスのアカウントのセキュリティを大幅に向上できるので、是非とも導入しておきたいアプリだ。
2要素認証/2段階認証とは、GmailなどのWebサービスにログインする際、ID/パスワードに加えて、もう一つの要素で本人確認をする仕組みだ。
最近では、ID/パスワードの入力後、メールやSMSでワンタイムコードが送られてきて、それを追加入力して初めてログインできる、というサービスも増えてきた。
こうしたワンタイムコードを生成する方法の一つが、「Authy」「Google Authenticator」などの「認証アプリ」たちだ。
こうしたアプリは、あらかじめGmailなどのWebサービスのアカウントと紐付けておくと、30秒間限定の6桁の数字を表示してくれる。
ID/パスワードに加えて、この6桁の数字を入力することで、アカウントにログインすることができるのだ。
例えば、筆者の場合、パスワードマネージャーのBitwardenにログインする際に、Authyで表示された6桁の数字を入力しなければログインできないようにしている。
2要素認証/2段階認証に対応しているWebサービスで、設定で「認証アプリ」との連携をオンにすると、「Authy」を使った2要素認証が可能になる。
以下はGoogleアカウントの設定画面の例だが、「認証システム」という項目をクリックすると、QRコードが表示され、それをAuthyアプリで読み込むことで、アカウントとAuthyをリンクできる。
さまざまなWebサービスを使い分ける現代人ならば、セキュリティのために、是非とも入れておきたい必携のアプリである。
Googleマップなどでも、ルート検索・ナビ機能がついているが、高機能とはいえやはりアメリカ製のアプリなので、日本国内の複雑な高速道路の分岐や、車線変更が連続する交差点などでは、音声の案内が分かりにくいことがままある。
その点、日本製ならではの非常に親切なナビアプリが、Yahoo!カーナビである。
無料で利用できるが、高速道路の料金検索、渋滞情報、軽自動車・普通自動車などの車種登録などの普通のカーナビ顔負けの機能が備わっている。
高速道路の分岐なども、音声とともに、看板や道路のグラフィックを表示して分かりやすく表示してくれるので、日本特有の分かりにくい道でも、間違うリスクが格段に減る。
普通のカーナビを使用する場合と、全く変わらない感覚で利用できるので、スマホ・タブレット1台さえあれば、Yahoo!カーナビだけで長距離旅行が十分に可能である。
また、ルート検索だけでなく、周辺のガソリンスタンドや駐車場を検索することも容易である。「駐車場」と検索してみると、周辺にあるコインパーキングの料金、空車状況が表示される。
常に最新の地図情報が無料でアップデートされ、検索時のテキスト入力も楽々なので、本当に普通のカーナビが必要なくなってしまう。いっそのこと、カーナビにYahoo!カーナビを埋め込んで欲しいところだ。
筆者の場合、Androidスマホを車のエアコン送風口に固定するためのスタンドを購入して、カーシェアやレンタカーにもスタンドとスマホを持ち込んで、Yahoo!カーナビを使っている。
車ユーザーであれば、是非ともインストールしておきたいアプリだ。
特にスマートフォンのユーザーであれば、乗換案内は必須のアプリの一つだ。
数多くある乗換案内アプリの中、なんだかんだで、Yahoo!乗換案内は優秀だ。
持っている定期券の区間を設定して料金を正しく計算したり、お気に入りの路線の運行情報をアラートで受け取ったり、通勤時間に自動でタイマーを起動させたり、普通は有料でもおかしくない、さまざまな便利機能がすべて無料で備わっている。
すでにYahoo!乗換案内を使っているユーザーであっても、これらの機能の存在を知らなかった人も多いのではないだろうか。
上下に広告が表示されるものの、それを補って余りある高機能だ。
「ロケスマ」は、特定のカテゴリの店舗・商業施設(牛丼、ハンバーガー、etc.)や、施設・公共スポット(銀行ATM、ガソリンスタンド、etc)などを、地図上にアイコンで分かりやすく一覧表示してくれるアプリだ。
例えば、「駐車場」をGoogleマップで検索しても、網羅性が低く多くのコインパーキングを見逃しがちであるところ、ロケスマで「すべてのコインパーキング」マップを開けば、一目でどこに何があるかが把握できる。
それぞれのピンには、追加の情報も入っていて、料金が表示されたり、満空情報のあるWebページへのリンクも表示される。
コインパーキングに限らず、特定のジャンルのマップが多数存在し、それらをお気に入り登録しておくことで、よく調べるカテゴリの店舗などをマップに表示できてとても便利である。
特に便利なのは、銀行・ATM・郵便局などの頻繁に利用するが地図で見つけにくいカテゴリのマップや、カフェ・牛丼などジャンル別の飲食店のマップ、コンビニ・ガソリンスタンドなどのジャンル別の店舗のマップだ。
車ユーザーであれば、コインパーキングやパーキングメーターも非常に便利である。地図上のピンをタップすると、Googleマップなどでナビを開始することもできる。
外出時に是非覚えておきたいアプリだ。
「Sleep as Android」は、深い眠り・浅い眠りなどの睡眠サイクルを追跡してくれたり、いびきや録音を録音してくれたり、最適なタイミングで目覚めさせるスマートアラーム機能を備えたアプリである。
枕元にスマートフォンやタブレットを置いておくと、マイクやモーションセンサーを活用して、いびき、寝言、騒音などの睡眠中の動きを記録し、睡眠の質を分析してくれる。
音声は自動で録音されるので、自分がどれくらいいびきをかいているかなどを、実際に録音を聞いて把握することができる。
また、睡眠の質や睡眠時間、睡眠ステージなどの詳細なデータをグラフ化し、分かりやすく表示してくれるので、寝不足が続いているときに、習慣を見直すことなどができる。
また、最適なタイミングで起こしてくれるスマートアラーム機能も便利だ。
繰り返し設定や、曜日設定をすることもできるし、アラームを止めるためにパズルを解かなければならない制限を科すことなどができる。
これによって、寝過ごしや二度寝を防ぎ、朝が苦手な人でも、少し朝起きるのを楽にしてくれる。
スマートウォッチなどを所有していなくても、スマホ・タブレットだけで睡眠トラッキング機能を利用できるので、是非活用しよう。
「Keepa」は、Amazonの商品の価格の推移をグラフで表示して、現在の価格が安いのか高いのかを把握するためのアプリである。
Keepaアプリ内の内蔵ブラウザで、Amazon Japanのサイトを開くことができ、そこから関心のある商品のページを開くと、そのページの真ん中あたりに、価格の推移グラフが自動的に挿入され表示される。
例えば、とあるロボット掃除機のページを開いて、Keepaの価格履歴を見てみると、直近で17万円台まで値下げされているが、現在の価格が23万円になっていることが分かった。
こうした履歴を把握することで、「今は買わずに次のセールを待とう」といった賢い判断をすることができる。
Keepaを利用しなければ、6万円もの損失があったかもしれないので、非常に有用だ。
Keepaのアカウントを作ることで、価格が下落した時のアラートなどもセットできるので、欲しい商品があって、過去にセールが行われていることがわかったら、アラートをセットしておくことで、次のセールを見逃さずに済む。
Amazonを頻繁に利用する人は、是非入れておきたい神アプリである。
]]>2024年12月21日に発表されたばかりのOpenAI o3モデルシリーズ。
中でも注目されているのは、従来のスキル・知識測定型のベンチマークテストとは異なり、その場でまったく新しいスキルを当意即妙に獲得できるかを測る「ARC-AGI」というベンチマークの結果だ。
o3の高負荷モード(o3低負荷モードの172倍の計算量)では、87.5%という驚きの高スコアを記録し、従来モデルを大きく突き放した。
とはいえ、ARC-AGIにおける高スコアが何を意味し、さらにどの程度のコストをかけて実現されているのかは謎が多い。
そんな中、ARC-AGIそのものの開発者であるFrançois Chollet氏が、ARC PrizeのWebサイト上で、o3の裏側を解説する記事を投稿した。
同氏は、フランス人のソフトウェアエンジニア兼研究者で、2015年から2024年11月までGoogleに在籍していた人物だ。深層学習ライブラリKerasの開発者としても知られ、多岐にわたって重要な功績を残している。
“Passing ARC-AGI does not equate to achieving AGI, and, as a matter of fact, I don’t think o3 is AGI yet. o3 still fails on some very easy tasks, indicating fundamental differences with human intelligence.”
(ARC-AGIに合格したからといってAGIを達成したことにはならない。実際、o3はまだAGIではないと考えている。o3はいくつかの非常に簡単なタスクに失敗しており、人間の知能とは本質的に異なる部分があることを示唆している。)
ARC-AGI開発者の目から見ても、o3はAGIそのものではない。しかし、確実に何か新しい段階に踏み込んでいると考えられる。
本記事では、François Chollet氏の寄稿を読み解いて、o3がなぜARC-AGIで高スコアを達成できたのか、また一体どれだけの計算コストがかかっているのかなどを掘り下げてみる。
今回OpenAIが公表したo3のARC-AGIテストのスコアでは、「高効率モード (High-Efficiency)=低負荷モード」「低効率モード (Low-Efficiency)=高負荷モード」という2種類の設定が使われている。
これはサンプリング回数を変えることで計算コストに差をつけ、そのうえで性能を測るという仕組みだ。
計算量が多ければ多いほど性能は向上するので、
という結果になっている。
ちなみに、ARC-AGIの「Semi-Private Eval」は、100個のタスクで構成され、AIによるタスク自体の学習を防ぐため、定期的に更新されるのが特徴。こちらのスコアの方が信頼性が高い。
一方の「Public Eval」は、公開された400個のタスクにより構成され、研究者がローカル環境でパフォーマンスを検証する目的で使われる。既にAIに解法を学習されているリスクがあるため、参考値だ。
François Chollet氏が公開したレポート(OpenAI o3 Breakthrough High Score on ARC-AGI-Pub)に掲載されている表によると、ARC-AGIにおけるo3の主なスコアと、計算にかかるコストの対応は以下のようになっている。
o3 モデル | テスト種別 | 問題数 | スコア | 費用 | 費用/問題 | 時間/問題 (分) |
---|---|---|---|---|---|---|
低負荷モード | Semi-Private | 100 | 75.7% | $2,012 | $20 | 1.3 |
Public | 400 | 82.8% | $6,677 | $17 | N/A | |
高負荷モード | Semi-Private | 100 | 87.5% | – | – | 13.8 |
Public | 400 | 91.5% | – | – | N/A |
o3の高負荷モードの費用は未決定のため記載されていないが、必要な計算量は、低負荷モードのおよそ172倍だという。
ということは、低負荷モードの費用を172倍すれば、非常に雑だが推定コストを計算することは可能だ。
単純計算すると、”o3 High” がARC-AGIを解くのにかかった費用は、以下のようになるはずである。
o3 モデル | テスト種別 | 問題数 | 推定費用 | 1問あたり推定費用 |
---|---|---|---|---|
高負荷モード | Semi-Private | 100 | $346,064 (約5,200万円) | $3,460 (約51.9万円) |
Public | 400 | $1,148,444 (約1.7億円) | $2,871 (約43万円) |
個人や中小企業が気軽に使えるような金額ではないのはもちろん、大企業にとっても相当な出費だろう。
したがって、現時点では、「o3は確かにすごいが、最大パフォーマンスを引き出すには、人間を雇う数倍〜数十倍のコストがかかる」と言えそうだ。
とはいえ、AIの進化速度を踏まえると、今後1〜2年のうちにこの価格差は急速に縮まる可能性がある。
かつて大規模言語モデルが数年前には途方もないコストを要していたのが、今や多くの企業で使われるようになっているのと同様だ。
o3がなぜここまで高いスコアを記録できたのか。
Chollet氏は記事の中で、以下のような言語によるbrute-force(総当たり)なプログラム探索の仕組みを推定している。
コンピューターが、チェスで無数の手を総当たりで試して、最善手を見つけるように、o3は、目の前にあるタスクを解決する手順の候補を、テキストの形で大量に生成し、それを順に評価していくのではないか、ということだ。
“For now, we can only speculate about the exact specifics of how o3 works. But o3’s core mechanism appears to be natural language program search and execution within token space – at test time, the model searches over the space of possible Chains of Thought (CoTs) describing the steps required to solve the task, in a fashion perhaps not too dissimilar to AlphaZero-style Monte-Carlo tree search.”
(現時点ではo3が正確にどう動作しているかは憶測の域を出ない。しかし、o3のコアメカニズムは、自然言語によるプログラム探索とトークンスペース上での実行にあるようだ。テスト時にはタスクを解決するのに必要な一連のステップ(Chain of Thought, CoT)を、AlphaZeroのモンテカルロ木探索に近いかたちで探しに行くのではないだろうか。)
一回の推論(“シングル・ジェネレーション”)に依存する従来の大規模言語モデルとは違い、o3は、大量の手順を思いつく限り挙げて、総当たりで成否を検証していく。
だからこそ、1タスクあたり数千万〜数億トークンという膨大な検索が必要になり、上述したような莫大な計算コストを必要としてしまうのではないか、ということだ。
計算コストの観点からは非効率にも思えるが、いずれにせよ従来のLLMの限界を打ち破り、パラダイムシフトを起こしているのは間違いない。
“o3 fixes the fundamental limitation of the LLM paradigm – the inability to recombine knowledge at test time”
(o3は、テスト時に知識を再結合できないという従来のLLMパラダイムの根本的な制約を克服している。)
ARC-AGIは「推論や学習をその場で行い、新しいスキルを獲得できるか」を測る、Chollet氏いわく“最も厄介なテスト”だ。
o3はこれをかなりの高スコアで突破したものの、依然として人間なら容易に解けるタスクで失敗するケースもある。
Chollet氏自身も「o3はAGIではない」と明言している。
また、さらなるAIモデルの進化を計測するため、ARC-AGIの改良版である「ARC-AGI-2」が2025年にリリースされる予定だ。
“Furthermore, early data points suggest that the upcoming ARC-AGI-2 benchmark will still pose a significant challenge to o3, potentially reducing its score to under 30% even at high compute (while a smart human would still be able to score over 95% with no training).”
(さらに、現在進行中のARC-AGI-2ベンチマークではo3にとっても大きな挑戦となり、高い計算リソースを用いてもスコアが30%未満に落ち込む可能性があると示唆するデータも得られている。一方で、賢い人間であれば学習なしでも95%超を叩き出せる見込みだ。)
今回のo3のようなブレークスルーに対応し、さらに難易度の高いベンチマークテストが用意され、またそれを超えていくAIモデルが現れる・・・という進化の過程は、とてもエキサイティングだ。
OpenAIがo3シリーズを発表した「12 Days of OpenAI」の動画内では、”o3 High”と称するモデルが、ARC-AGIのSemi-Private Evalで87.5%というスコアを叩き出したことが紹介されていた。
以上で紹介したような背景情報を読み解いていくと、これだけの高スコアの背景には、とんでもない計算資源が投下され、おそらく1億円を優に超えるほどの費用がかかっていると思われる。
75.7%を記録した”o3 Low”は、100個のタスクをこなすのに2,000ドル程度(30万円程度)と、まだ現実的な費用感で運用できそうだ。
件の”o3 High”は、o3 Lowの172倍の計算量を要するとのことなので、単純計算すると、同じ100タスクをこなすのに5,000万円超、1問を解くのに50万円超の費用が必要になる。
o3 Highに関しては、おそらく当分の間、一般に利用可能な形ではリリースされないものと思われる。
GPUをはじめとする計算資源のイノベーションが進み、計算コストが低下して、o3 Highの規模のモデルを一般人でも利用できる世の中が来ることを祈るばかりだ。
]]>Googleがリリースしたばかりの強力なAIリサーチツール「Deep Research」が、早速日本語にも対応し、ウェブ版のGeminiで利用できるようになった。
「Deep Research」は、2024年12月11日に、Geminiの英語版限定で導入された新機能で、数百ものWebサイトをGeminiがクロールした上で、取得した情報を1本のレポートにまとめるツールだ。
これまでも、ChatGPTやGeminiで、ウェブ検索機能を有効にすることはできたが、せいぜい数件のウェブサイトの内容に基づいて、瞬時に回答を生成する機能だった。
「Deep Research」は、その名の通り、はるかに深く、長い時間をかけて、より網羅的に情報を集め回答を生成する、全く新しいAIリサーチツールだ。
実際に使ってみると、レポートの生成に5分以上の時間がかかることもザラである。生成されるレポートの内容も、非常に高度・網羅的で、最強のキュレーションツールといった感じだ。
分野・業界によっては、新入社員に市場調査レポートを執筆させるのと、結構近いレベルのレポートが、たった5分で得られるようになる革命かもしれない。
本記事では、Deep Research の概要と使い方を詳しく説明するとともに、筆者が実際に Gemini Advanced に課金してDeep Research を使ってみて、様々なリサーチ&レポーティングを行なってみた例をいくつか紹介する。
「Deep Research」は、Googleが開発するAIアシスタントGeminiの最新機能で、有料版のユーザー限定で利用できるようになっている。
Deep Researchは、数時間かかるようなリサーチ業務を数分で完了させる強力なツールだ。複雑なトピックについて、大量のWebページの検索と中身の確認をユーザーに代わって行い、収集した情報を、包括的で読みやすいレポートの形でアウトプットしてくれる。
以下、実際にGeminiでDeep Researchを利用した際の流れを紹介する。
まず、ユーザーが質問を入力すると、Geminiが複数段階からなるリサーチプランを作成する。
ユーザーがこのリサーチプランを承認すると、まずはGeminiが、人間がウェブを閲覧するのと同様に検索を行い、たくさんのWebページの情報を集めてくる。
そして、Webページから学習した内容に基づいて、再び新たな検索を開始し、このプロセスを何度も繰り返す。検索が進行している間は、どんどんWebサイトの件数が上がっていくのが分かる。
最終的に、主要な情報をまとめたレポートを生成し、ユーザーに対して表示してくれる。
レポートにはオリジナルソースへのリンクが脚注の形で整理されているので、各情報の出所を人間が確認することも可能だ。
また、ユーザーは完成したレポートを、Googleドキュメントにエクスポートすることもできるようになっている。
「Deep Research」は、まさにAIモデルが自律的なエージェントのように振る舞う一例だ。Geminiが自ら考えてリサーチクエスチョンを立て、集まった情報から次のリサーチクエスチョンを導き、再び情報を集める…というように、AIが人間を介在せず行動する形になっている。
Geminiモデルの高度な能力と、100万トークンものコンテキストウィンドウを組み合わせることで、大量の情報を集め整理し、的確にドキュメントに落とし込むことを実現できている。
Deep Researchをはじめ、Geminiの有料版であるGemini Advanced限定の機能を利用するには、「Google One AI プレミアム プラン」に加入する必要がある。
「Google One AI プレミアム プラン」は、通常のGoogle Oneプランに含まれるGoogleドライブの2TBストレージに、Gemini Advancedの利用が付帯するプランである。
競合のAIチャットサービスだと、OpenAIのChatGPTや、AnthropicのClaudeも、月額20ドル程度(日本円で月額3,000円程度)だ。
「Google One AI プレミアム プラン」は、競合と同価格帯の月額2,900円なので、おまけで2TB分のGoogleドライブが得られると考えると、結構お得感もある。
記事執筆現在、初めて課金する人は、1ヶ月間無料でトライアルをすることができるようだ。また、かつて課金したことがある人も、最初の2ヶ月半額などの特典が用意されており、再開しやすくなっている。
「Google One AI プレミアム プラン」への加入が完了したら、アカウントにログインした状態で、Web版のGeminiを開くと、Gemini Advancedが有効になっており、Deep Researchの概要を示すポップアップが表示されるはずだ。
Geminiのチャット画面の左上をクリックすると、プルダウンメニューでモデルを選ぶことができる。
ここで、「1.5 Pro with Deep Research」を選択すると、Gemini 1.5 ProモデルによるDeep Research機能を利用することができる。
他にも、Gemini Advancedのみで利用できるモデルとしては、記事執筆現在(2024年12月)、以下のモデルが含まれている。
AIの性能比較サイトChatbot Arenaで、GPT-4oやo1-previewを抑え、世界1位に君臨している「Gemini 2.0 Experimental Advanced」など、最新の高性能なモデルも利用できるので、有料プランのコスパは結構いいと思う。
Deep Researchは、高校生や大学生などの学生から、リサーチ業務にあたる社会人まで、幅広いユーザーの助けになりそうだ。
ここでは、私生活、学校生活、仕事場などいくつかのシナリオで、あり得そうなリサーチテーマを用意して、Gemini 1.5 Pro with Deep Researchを使ったリサーチを試してみた。
使ってみた感想としては、表現が難しいが、「検索がそこそこ上手い大学生に、Web情報だけで期末レポートを書かせた」くらいのレベルの、そこそこクオリティの高いレポートが得られた。
プロンプトの内容によって、リサーチしてくれる文献の種類も結構変動するので、ユーザー側の最初の質問でうまくGeminiを有望な方向に誘導できるかも重要になりそうだ。
まずは、世の中にあるオンラインコースや参考書籍の情報を集めて、プログラミングの学習計画を立てるのを手伝ってもらってみた。
以下のような非常にシンプルなプロンプトで、プログラミング初心者が、Pythonで機械学習を学びたい場合の、学習ステップを調べさせた。
プログラミング初心者向けに、Pythonで機械学習を学ぶためのおすすめのオンラインコースと書籍
このプロンプトを受けて、Geminiが設定したリサーチ計画が以下である。計画が適切であれば、「リサーチを開始」をクリックすれば、早速リサーチが開始される。
今回は、せっかくなので、少しリサーチ計画を修正させてみる。「計画を編集」をクリックすると、チャットでどのような変更をしてほしいかを打ち込める状態になる。
日本語でGeminiを利用していると、Deep Researchの検索対象となるWebサイトも、基本的に日本語ページばかりが中心になる。
今回は、Pythonと機械学習の学習リソースとして、英語の情報も考慮してほしいと伝えることで、英語圏のオンラインコースなども探してもらうよう誘導した。
オンラインコースは、英語・日本語のものを両方考慮してください。
すると、このチャットを受けて、Geminiが先ほどのリサーチ計画を修正する。あとは「リサーチを開始」をクリックすれば良いだけだ。
リサーチが開始されると、検索するウェブサイト数にもよって前後するが、大体5分以上は待ち時間が発生する。
Geminiの画面右側に、現在リサーチ中のウェブサイトの数と、その一覧が表示される。
チャット上では、「リサーチが完了したらお知らせします。その間、このチャットからご自由にご退出ください。」と表示され、リサーチの途中でこのチャットを閉じてもリサーチは継続してくれる。
リサーチタスクをGeminiに任せて、自分は席を立つ、なんてことができてしまうので、非常にありがたい。
最終的に、全部で61 件のウェブサイトをGeminiが読み込み、その結果を5,000文字を超えるレポートとして生成してくれた。
生成されたドキュメントのアウトラインは次のようになっている。お題に対して、かなり的確なレポーティングが行われており驚いた。
内容面でも、オンラインコースと書籍を組み合わせて学習を進め、最後は具体的なプロジェクトで実践的な練習を積むことを勧めるという、納得感のある構成になっている。
おすすめコースとして並んでいるオンラインコース群を見てみても、Python入門から機械学習入門まで、お題に沿ったラインナップが幅広く的確に揃っている。
しかも、講座名、提供サイト、講座概要、口コミ評価などが、適切に構造化され、テーブルデータになっているのも良い感じだ。
各セクションの末尾に、折りたたみパネルで引用元のソースを表示することができるボタンがついている。これを確認することで、レポート内に含まれる文章が、どのWebサイトの情報に基づいているのかを把握できる。
また、完成したレポートはワンクリックでGoogleドライブにエクスポートすることも可能だ。
ドキュメントの末尾には、脚注の形で、全てのソースが表示されている。
ちなみに、レポートが生成された後であっても、Geminiに追加でチャットで指示をすれば、一部を修正させたり、全体の文のスタイルを変更させたりすることも可能だ。
例えば、このレポートを口語調にしてくれ、と言ってみると、
最近、AIとか機械学習ってめっちゃ話題になってるよね。いろんな会社がAIを使ったサービスとか製品作りに力を入れてるんだって。で、そのAIの土台になってるのが機械学習。
という、かなりポップな文体で、レポートを作り直してくれた。
学生のレポートやプレゼンテーションのための情報収集や、社会人の自学自習のための学習計画作りなど、活用場面は多そうだ。
次は、もう少しプロフェッショナルな場面で利用されることを想定して、以下のような原子力分野のマーケットリサーチと、投資アイディアの探索を依頼してみた。
先ほどより少しプロンプトを工夫して、レポートを使用する場面に応じた適切な文体とするように指定した。
AIテクノロジーの普及による電力需要の拡大を踏まえて、原子力・核融合炉関連の投資対象を探している。投資先の候補になりうる企業を、国を問わずに探索せよ。
レポートの文体は、投資ファンドの会議内で用いられることを想定して、プロフェッショナルな文語体にすること。
このプロンプトを受けて、Gemini 1.5 Pro with Deep Researchが考案したリサーチ計画が以下である。
プロンプトにある通りの関連企業リストの探索だけでなく、原子力技術の現状と将来展望、AI技術の電力需要への影響など、投資判断の前提となるマーケット全体に関するレポーティングも、リサーチ計画に含まれている。
無事にリサーチが5-6分で完了し、確かに指示通りのレポートが生成された。
しかし、やはり日本語版のGeminiでは、リサーチの対象が日本語ソースに偏りすぎていて、英米の核融合炉スタートアップなどの情報が欲しかったのに、日本の電力会社などばかりがリストアップされてしまった。
そこで、リサーチの対象に特に含めてほしい情報を追加で打ち込み、再びリサーチを行いレポートを改訂するように依頼してみた。
北米・ヨーロッパにおけるスタートアップ企業や上場企業などまでリサーチの範囲を拡大してください。
すると、以下のように北米・ヨーロッパのスタートアップ企業をいくつかレポート内に追加してくれた。
とはいえ、追記はしてくれたものの、参考文献に英語の文献は3件しか増えていなかった。
どうやら、Deep Research機能は、初回のリサーチは非常に熱心に行うが、一度レポートを生成してしまうと、それ以降は多少の追加質問をされても、あまりDeepなリサーチを行ってはくれないようだ。
もし、レポートの内容を大きく変更したい場合には(ex. 日本のマーケットではなく、欧米を中心にリサーチしたい)、追加質問するよりも、そもそもDeep Researchをゼロからやり直した方が良さそうだ。
最後に、業務で使用するサービスを比較する場合など、ざっと世の中にある競合サービスの情報をまとめて、比較分析をしたいといったシーンを想定して、以下のようなリサーチをGeminiに依頼してみた。
主要クラウドサービス(AWS、Azure、GCP)のAI・機械学習関連サービスの機能、価格、パフォーマンス比較
これを受けて、Geminiが考案したリサーチ計画が以下である。プロンプトにある「AI・機械学習関連サービス」という抽象的なワードを的確にブレイクダウンして、リサーチする対象のサービスを明確化している。
そして、これまた5分以上の時間をかけて、200件ほどのWebサイトをリサーチしてくれた。
生成されたレポートでは、画像認識、自然言語処理、音声認識、予測分析など各ジャンルごとに比較テーブルを作成して、各サービスを列にとって分かりやすく、見やすく比較を行ってくれている。
ところどころ表中の軸設定がたどたどしい箇所もあるが、人間が自身でリサーチを始める前に、ざっくりとマーケットの全体像を把握して、サービス比較の検討を始めるスタートラインにするには十分すぎるクオリティだ。
Deep Researchは、他社サービスに類を見ない非常に先進的な機能だ。
ウェブ上の膨大な情報を数分で網羅的に集め、サマリーレポートを作成してくれる。
Perplexityなど、検索を売りにしたAIサービスは他にもあるが、さすがWeb検索を本業とするGoogleだけあって、圧倒的に深く、圧倒的に広いリサーチを、Geminiが行ってくれるのは唯一無二の機能だ。
リサーチ作業を圧倒的に効率化することのできるDeep Researchは、マーケティングなどのビジネス分野はもちろん、アカデミックな場での先行研究のリサーチなど、多岐にわたる用途で活用できそうだ。
現在Deep Researchは、ウェブ版のGemini Advancedで利用することができる。
2025年初頭には、モバイルアプリでも提供開始予定とのことで、外出先でも、通勤中でも、手のひらの中で、超高速で超優秀なAIエージェントがリサーチ業務を代行してくれるようになりそうだ。
]]>OpenAIは日本時間の2024年12月21日、新たなフロンティアモデル「o3」と「o3-mini」を発表した。
o3は非常に高度な知能を持つモデルで、難易度の高い推論を要するベンチマークテストで、他のモデルが到達したことのない異次元のパフォーマンスを示している。
これは、OpenAIの新製品・新機能発表のライブ配信シリーズ「12 Days of OpenAI」で発表されたものである。最終日である12日目たる本日、o2でもGPT-5でもなく、「o3」が登場することになった。
本記事では、驚異的な性能を示すo3, o3-miniについて、OpenAIのライブ配信中に紹介されたベンチマークスコアと、それらのスコアが意味することを紹介しながら、o3モデルへの期待をまとめる。
なお、他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。
前提として、o3, o3-miniはいずれも未リリースで、o3-miniが来年1月末からロールアウトされるという。現時点では、安全性の検証のため、専門家のみが参加できる評価プログラムの募集が行われている。
「12 Days of OpenAI」のライブ配信の中では、o3モデルと他のモデルを比較する様々なベンチマークテストの結果が紹介された。
o3は、コーディング、数学、推論などのタスクで、o1やGPT-4oなど従来のモデルを突き放す結果を示している。
我々自身はまだo3を手元で試すことができないが、以下、OpenAIによって紹介された各種ベンチマークと、その意味・解釈を詳細に解説していく。
配信では、2つのコーディング関連のベンチマーク結果が紹介された。
現実世界のソフトウェアタスクからなるテストであるSWE-bench Verifiedと、競技プログラミングサイトCodeforcesでのレーティングの2点である。
o3は、SWE-bench Verifiedにおいて、71.7%の精度を達成した。
これは、前モデルのo1と比べて20%以上の改善になる。既にo1モデルも、プログラミング時に非常に役立つと評判であるところ、o3が登場すると、ソフトウェア開発の現場でAIに頼めることがもっと増えそうだ。
また、競技プログラミングサイトであるCodeforcesのスコア(ELOレート)において、o3は2727を達成した。これは、現在のモデルo1のELOレート1891を大幅に上回るスコアである。
ライブ配信に参加したOpenAIのMark Chen氏は、MIT卒の競技プログラマーで、彼のベストスコアは2500だという。2700台というのは、Codeforcesのパーセンタイル統計によれば、人間の99.95%を上回るスコアである。
OpenAIには3000台のスーパーコーダーもいるそうで、配信内では「あと数ヶ月は楽しめる」とのジョークも。まだギリギリ人間のトップオブトップのプログラマーの能力は超えていないが、既に大部分の人間のコーディング能力は超えてしまっているのだ。
数学関連のベンチマーク結果として、アメリカ数学オリンピック予選の問題セットである「AIME2024」における正答率と、博士課程レベルの科学の問題セット「GPQA Diamond」の結果が紹介された。
o3は、AIME 2024において、96.7%の正答率を達成し、o1の83.3%を大きく上回っている。
96.7%という水準は、アメリカ数学オリンピックの予選で、テストを受ける度に1問だけ間違える正答率ということである。
また、GPQA Diamondでは、o3は87.7%の正答率を達成し、これまた、o1の78%を約10%上回る結果となっている。
人間がGPQA Diamondに解答する場合、ある分野の博士号保有者が、自身の専門分野の問題に答えたとしても、通常は約70%の正答率に留まるとのことで、これもまた驚異的な性能である。
さらに、従来AIの評価にあまり使用されてこなかった、極めて高い難易度を持つテストである「EpochAI Frontier Math」というベンチマークの結果も紹介された。
「EpochAI Frontier Math」は、まだ公開されていない新しいベンチマークテストで、人間の数学者が取り組んだとしても、解くのに数時間から数日を要する非常に難しい問題群で構成されている。
o3の設定(高負荷モード〜低負荷モード)によってもスコアは変動するが、o3の最も高いスコアは、25.2%という驚異的な正答率を達成している。
これまで存在した全てのAIモデルは、このテストで2%未満の正答率しか出すことができておらず、o3のパフォーマンスは全く異次元の世界に到達していると言える。
AI業界でよく使用されるベンチマークテストは、o1, o3の様なモデルの性能が高まりすぎたことで、スコアの上限に達しつつある。実際、上記で登場した「AIME2024」や「GPQA Diamond」は、ほぼ満点に近づいており、これ以上の性能の評価に使うことができない。
そこで、AGIクラスの超高性能なモデルを適切に評価するため、新しいベンチマークを開発する試みもいくつか行われている。
中でも、「ARC-AGI」は、2019年に米Googleの研究者であるFrançois Chollet氏によって開発されたベンチマークであり、汎用人工知能(AGI)のパフォーマンスの測定を目指すテストだ。
このベンチマークは、新たなスキルを即座に学習し、記憶していないタスクに対して、当意即妙に対応できるモデルの能力を測定するためのものだ。
例えば、問題の例として紹介されたのが以下のクイズ。
左側で示されたインプットとアウトプットの関係を踏まえて、右側のアウトプットがどうあるべきかを予測する問題。人間であれば、欠けている角に濃い青を塗る、という回答が簡単に出せるが、AIモデルにとっては解くのが非常に難しいのだという。
また別の問題では、以下の様なものもある。先ほどと同じく、示されたInput-Outputの例から、正解のOutputを考える問題だ。
答えは、黄色エリアの中にある別の色のパネル数を数え(ex. 赤セルが2個)、黄色エリアの周囲をその幅で囲う(ex 赤2行分の幅)というものだ。
これは先に示された例の「角を青くする」のとは、全く別のスキルが必要になる問題だ。
このように、ARC-AGIは、意図的にすべてのタスクが全く異なるスキルを要する問題群で構築されている。
ARC-AGIが目指すのは、すでに記憶している回答を引き出すのではなく、新しい課題を示された際に、即座に新しいスキルを学習する能力をテストすることであるからだ。
o3は、このARC-AGIで、低負荷設定で75.5%、高負荷設定で87.5%ものスコアを達成したという。以下のグラフの赤い点がo1モデルで、青い点がo3モデルである。
ARC-AGIに、人間の子どもが解答すると、85%〜100%のスコアになるという。
つまり、o3は、人間の知能のラインを超えるパフォーマンスを示しているということだ。
o3の登場により、ARC-AGIのスコアすら飽和状態になってしまうので、今後、ARCとOpenAIが共同して新しいベンチマークテストの開発に取り組むという。
なお、OpenAIのライブ配信の中では触れられなかった点だが、ARC-AGIのテストスコアのプロットのX軸「Compute Per Task」とは、一体何を示しているのだろうか。グラフ内に単位も書いておらず、フワっとした指標だ。
その答えが、ARC財団がX上で公開したプロット画像に載っていた。こちらのプロットでは、OpenAIのライブ配信とは異なり、X軸を「計算コスト」として「USドル」の金額にしている。
これによれば、最も高スコアを出した「o3 (高負荷設定)」のARC-AGIの計算にかかったコストは、なんと1,000ドル(15万円)を超えている。
o3モデルが一般公開されても、このレベルの推論能力を備えた「高負荷設定」モデルは、一般の人には手の届かない価格帯になりそうだ。
とはいえ、各社とも新モデル発表のたびにAPI料金を引き下げ続けており、計算コストの削減が進めば、いつかo3の最高負荷のモデルも、現実的な価格帯で使える時も来るかもしれない。
o3-miniは、o1-miniと同様に、o3よりも小型・高速で、非常にコストパフォーマンスが高いモデルである。
adaptive thinking timeとして、思考時間をカスタマイズすることが可能で、ユーザーは、低、中、高の3つのオプションを選択できる。
もちろん、思考時間が長ければ長いほど性能が上がり、費用も上がる。
ユースケースごとに思考時間を調整することで、複雑な問題にはモデルに長く考えてもらい、簡単なものには短く考えてもらう、ということが可能になる。
先ほども登場した競技プログラミングサイトであるCodeforcesにおけるELOレートで、o3-miniのそれぞれのモデルは以下のスコアを記録している。
左図のスコアを見ると、
中程度の計算負荷のo3-mini (medium)ですら、o1のスコアである1891を上回っている。
また、右図はコストとELOレーティングのトレードオフを示している。o3はELOスコアは非常に高いものの、o1と比べてコストが非常に高い。
一方、o3-miniは、コストをo1と同水準に抑えながら、o1よりも高いパフォーマンスを達成していることを示している。
ライブ配信中では、o3-mini (high) を使って、複雑なアプリケーションを作成するデモも示された。
このアプリは以下の様な機能を持つものだ。
ライブ配信中に、非常に高速にコードが生成され実装されていく様子が示されていた。
コーディングのベンチマークに続き、アメリカ数学オリンピック予選を用いたベンチマークAIME 2024でも、o3-mini (high) が 83.6% と、o1を上回る性能を示している。
また、右図は回答までのレイテンシーを他のモデルと比較したもので、o3-mini (low) のスピードは推論モデルですらないGPT-4oに近い水準で、瞬時に近い回答が可能だという。
また、先ほども登場した博士課程クラスの科学問題セットのGPQA Diamondでも、o3-mini (high) はo1に匹敵する性能を示している。
o3-miniは、関数呼び出し、構造化出力など、APIの機能を完全にサポートするという。
これにより、開発者はよりコスト効率が高く、また性能も優れたソリューションを利用することができるようになる。
ユーザーから悪意のあるプロンプトが与えられた時に、安全か安全でないかの判断を行うために、通常は、単に良い例・悪い例をたくさん学習することによって、AIモデルがこの判断ラインを設定する。
この様な従来型のアプローチだと、複雑な状況で誤った判断をすることも多い。例えば、AIモデルを騙す意図を持ったユーザーによる有害なプロンプトに対して誤って応答してしまったり、逆に無害な質問を拒否してしまうという問題だ。
o3を発表するライブ配信内では、「Deliberative Alignment」の手法が紹介された。同時に、OpenAIのサイト上に論文も掲載されている。
「Deliberative Alignment」の手法は、要するに、AIに人間が作成した明確で理解しやすい安全ガイドラインを直接教えるものだ。
その上で、AIが応答を生成する前に、そのガイドラインに基づいて自分で「考える」ことによって、安全性を判断するように訓練する。「このユーザーは自分を騙そうとしているぞ」、ということに、モデル自身が推論によって気付くことができるようになるのだ。
o1の安全性を、他の先進的なAIモデルであるGPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proと比較しているのが以下のプロットである。
AIをだまして有害な出力を引き出す「脱獄(jailbreak)」攻撃への耐性、ポリシーに違反する要求を適切に拒否できるか、また逆に無害なプロンプトに適切に回答できるかも評価される。
正確に拒否できるように拒否性能を高めていくと、無害なプロンプトも拒否してしまう、というように、一方を改善すると他方が悪化するトレードオフがある。
他のモデルを見てみると、Gemini 1.5 Proなどは、無害な質問に回答できているが、悪意のあるJailbreakにもうっかり回答してしまうため、プロットの左端に位置している。
ここで比較されているのはo1モデルだが、o1モデルはプロットの右上に位置しており、このトレードオフを克服し、両方を同時に改善できたことを意味している。
o1は、有害な出力を回避する能力も高いし、Overrefusal(無害な質問を拒否してしまう)も減らすことができているのだ。
今回のo3とo3-miniの発表は、汎用人工知能(AGI)への道を一歩前進させる出来事だと感じられる。数学やコーディング、未知の問題解決能力において、o3は人間を凌駕するパフォーマンスを達成しつつある。
特に、ARC-AGIテストで、他モデルを引き離し、人間の子どもに匹敵するスコアを出したことは驚異的だ。o3の最高負荷設定は計算にかかる費用が非常に高いようなので、我々一般消費者が、このレベルのAIモデルを自由に使えるまでには、まだまだ時間がかかりそうであるが。
直近では、o3-miniが1月末ごろにリリースされる予定だ。o3-miniは、低コストでありながらo1を超える性能を両立したモデルであって、多くの人がo1からo3-miniに乗り換えることになるだろう。
一方、o3の一般公開は、安全性テストの進捗によって前後し、o3-miniの後に登場する予定だ。o3-miniと同じく、低負荷〜高負荷の思考時間(adaptive thinking time)を選べるようになるのかもしれない。o3 (high)の性能が楽しみでもありつつ、利用料金が一体どれだけ高額なのか、気になるところだ。
o3とo3-miniを実際に使える日も楽しみであるし、ここから一体どんな応用アプリが生まれていくのか、非常に楽しみである。
]]>「Gemini 2.0」関連の新モデルリリースの勢いが止まらない。
Googleは、2024年12月19日、新たな実験的モデル「gemini-2.0-flash-thinking-exp-1219」を発表した。
これは、先週登場したばかりの最新モデル「Gemini 2.0 Flash」が、人間に近い思考をする「推論」機能を手に入れた「Gemini 2.0 Flash Thinking」モデルである。
OpenAIが開発するトップ推論モデル「o1」と同じく、AIが回答を生成する前に「考える」ステップを踏むことで、より複雑な問題の解決が可能になったものだ。
その性能は極めて高く、「Gemini 2.0 Flash Thinking」は、記事執筆現在、ユーザー投票による大規模言語モデルの性能ランキングサイト Chatbot Arena の全ジャンルで1位に君臨している。
驚くべきことに、現在「Gemini 2.0 Flash Thinking」は、誰でも無料で利用することができる。o1クラスの超高性能なモデルを、無料で利用できるのはありがたすぎる。
本記事では、Thinkingモデルの詳細をまとめるとともに、誰でも簡単に無料で使ってみる方法、また実際にThinkingモデルに高度なプロンプトを与えた結果のパフォーマンスなどを紹介していく。
Googleは2024年12月に入り、次々と強力なAIモデルを投入している。
まずは12月6日、突如としてChatbot Arenaで1位を独占し話題となった「gemini-exp-1206」をリリース。その直後の12月11日には、新モデルシリーズの「Gemini 2.0」を発表し、第1弾となる「Gemini 2.0 Flash」を公開した。
そして12月19日にリリースされたのが、今回の「Gemini 2.0 Flash Thinking」である。
回答を生成する前に「考える」ステップを挟む推論モデルというアプローチは、OpenAIのo1
モデルや、それに続くQwenのQwQ
などによって採用されてきた。GoogleのGeminiもまた、この推論アプローチを用いたモデル群の一員となったということだ。
Googleの公式ドキュメントによれば、「Gemini 2.0 Flash Thinking」は、回答の一部として「thinking process(思考過程)」も生成するようにトレーニングされており、通常のGemini 2.0 Flashに比してより強力な推論能力を身につけているという。
例えば、Gemini 2.0 Flash Thinking に適当な計算問題を聞いてみると、回答とは別に、「Thoughts」というレスポンスが得られ、思考過程が表示される。
Thinking Mode は、現在 Google AI Studio で試すことができるほか、Gemini API を介して直接利用することも可能である。
最も簡単にGemini 2.0 Flash Thinkingを利用できるのは、「Google AI Studio」というGoogleが提供する開発者向けのGeminiのテストツールである。
開発者向けといっても、プログラミングの知識も不要で、Googleアカウントさえ持っていれば誰でも簡単に使えるので安心して欲しい。
まずは、Google AI Studio にアクセスし、Googleアカウントでログインする。
すると、以下のようなインターフェースが表示される。
左側のメニューの「Create new prompt」をクリックすると、Geminiとチャットができる画面が表示され、実質的にはChatGPTの様なチャットインターフェースとして使用することができる。
画面右側で、Geminiの設定をさまざまに変更することができ、どのモデルを使うかの選択や、出力するトークン数の上限などを設定できる。
モデル選択のプルダウンメニューで、「Gemini 2.0 Flash Thinking Experimental」を選択することで、Gemini 2.0 FlashのThinkingモードを利用することができる。
下部にGeminiに回答してほしい質問などを打ち込み、「Run」をクリックするだけで、AIによる回答が生成される。
Google AI Studio では、応答ウィンドウ内に「Thoughts」という新しいパネルが表示され、そこにモデルの思考プロセスが示される。
初期状態ではパネルは折りたたまれており、ヘッダーをクリックすることで展開できる。
例えば、単に「こんにちは」と打ち込んでみただけだが、Geminiがユーザーからの「こんにちは」を受け取った後、それが日本語の挨拶であり、日本語の挨拶を返すのが適切である、という思考を行った流れを覗き見ることができる。
Geminiの公式GitHubレポジトリにおいて、Gemini APIで「Gemini 2.0 Flash Thinking」を使用する方法を解説するGoogle公式のPythonクックブックが公開されている。
Google Colaboratoryを使って実際にコードを動かすこともできるので、興味のある人は触ってみることを勧める。
ここでは、公式クックブック内で紹介されている、Thinkingモデルのパフォーマンスを示す問題解決の事例のサマリーをいくつか紹介する。
思考プロセスを読んでみると、恐ろしくなるほどに、人間と似た様な思考プロセスを踏み、試行錯誤をして、回答に辿り着く様子が分かってとても面白い。
Gemini 2.0 Flash Thinking は、画像の読み込みも可能なマルチモーダルなモデルである。
公式クックブックで示されている例の一つに、次のような、人間でも難しく感じるような画像によるクイズ問題がある。
数字の書かれたビリヤードボール4つの画像が与えられ、写真内のボールの数字を用いて、合計が「30」になるような3つの数字の組み合わせを考えろ、という問題だ。
なぞなぞのようなクイズ問題であるが、あなたは答えは分かるだろうか?Geminiの思考プロセスと、あなたの思考プロセスを比べる意味でも、一度じっくり考えてみてほしい。
Geminiには、画像とともに、「How do I use three of these numbers to sum up to 30?(これらの数字を3つ使って合計を30にするには?)」というプロンプトを与える。すると、9秒間考えた末に、見事に正解を導いてくれた。
正解は、写真に写っている「9」のボールをひっくり返して「6」にする、ということだ。
「Thoughts」タブを開くと、Geminiの思考の流れを覗き見ることができるが、この思考過程が読んでいてかなり面白かったので、以下で日本語に翻訳してみた。
Gemini 2.0 Flash Thinking が、どの様な思考プロセスで、正解に至るまでに試行錯誤を繰り返しているのかがよく分かる。
まさに、自分自身がクイズを解いている時と同じ様な思考ステップを踏んでおり、読んでいて鳥肌が立つ。
まずは色々な組み合わせを試してみる。
- 7 + 9 + 11 = 27 (足りない)
- 7 + 9 + 13 = 29 (足りない)
- 7 + 11 + 13 = 31 (多すぎる)
- 9 + 11 + 13 = 33 (多すぎる)
どうやら、これらの数字を普通に足し合わせるだけでは30にならないようだ。
<-----中略----->
少し視点を変えて考えてみる。数字そのものに何か仕掛けがあるのだろうか?
改めて数字を見てみよう。7、9、11、13。
ああ、もしかして何か単純なことを見落としているのかも。「この中から『3つの数字を使う』」としか書かれていない。必ずしも違う数字である必要はないんだ。
同じ数字を2回使うことはできるだろうか? 例えば…
- 7 + 7 + X = 30 => X = 16 (リストにない)
- 9 + 9 + X = 30 => X = 12 (リストにない)
- 11 + 11 + X = 30 => X = 8 (リストにない)
- 13 + 13 + X = 30 => X = 4 (リストにない)
同じ数字を3回使う場合はどうだろう?
- 7 + 7 + 7 = 21
- 9 + 9 + 9 = 27
- 11 + 11 + 11 = 33
- 13 + 13 + 13 = 39
<-----中略----->
この問題には何かトリックがあると考えるのが妥当かもしれない。一番ありそうなのは、数字の提示方法に隠されたトリックだ。数字はボールに印刷されている。
数字を視覚的に何か操作する方法はないだろうか?
もう一度、数字を見てみる。7、9、11、13。
もし、数字を回転させることができたら…? 「9」を逆さまにすれば「6」になる!
もしそうだとすれば、11 + 13 + 6 = 30。
制約から考えると、この視点での解法が最も有力そうだ。ボールという視覚的なヒントがあり、単純な足し算ではうまくいかないことから、視覚的な操作を示唆していると考えられる。
次に、もう少しフォーマルな数学の問題の例を紹介する。
円と三角形が交わる領域の面積を計算するという複雑な思考を必要とする問題を、画像形式でアップロードする。
実際の画像は以下である。
この画像について、「What’s the area of the overlapping region?(重なっている部分の面積は?)」という質問を行う。
ステップバイステップで思考し、円の面積の全体が9πで、三角形が直角三角形であり、円のうち直角に囲まれた部分なので全体の1/4(90/360)、という正解を導いている。
筆者がGoogle AI Studioでこれを行った際、答えを出すのにかかった時間は、わずか12秒である。
人間が答えを聞くと簡単そうにも思えるが、ChatGPTでGPT-4oモデルに同じ問題を出してみると、Code Interpreterを使って細かい計算までやり始めたが、結局正解を出すことができなかった。
Gemini 2.0 Flash Thinkingは、少なくとも数学の図形問題においては、明らかにGPT-4oの推論能力を上回っている。
最近では、大規模言語モデルの学習に使用されるトレーニングデータが枯渇しており、各社のモデルの性能が頭打ちとなってきて、大規模言語モデルの進歩が停滞していると言われることも多くなってきた。
こうした状況下で、AIモデルの性能を改善するため、モデル自体の学習量を更に巨大にスケールさせるのではなく、「思考」する時間を設けるなどして回答生成時の計算量をスケールさせる、というアプローチが試行されている。
OpenAI の o1 モデル、Qwen の QwQ、DeepSeek の DeepSeek-R1-Lite-Preview など、各社がこの分野で新たなモデルを開発している。今回のGoogle Gemini 2.0 における Thinking Mode の登場は、この競争にGoogleも参戦することを示唆するものだ。
Claude 3.5 Sonnet以降の発表がないAnthropicや、オープンソースモデルLlamaを開発するMetaが、今後推論モデルの分野にどの様に参戦してくるか楽しみである。
なお、無料で使える Gemini 2.0 Flash Thinking だが、あくまで現在はまだ実験的なモデルであり、以下の制限事項が公式にアナウンスされている。
ChatGPTは便利だが、いつもいつも面倒に感じるのは、質問の前提となるコンテキスト(既存の文章やコード)を、別のアプリからChatGPTにコピペする必要がある点だ。
既存の文章やコードベースをChatGPTに与えてから、「エラーの原因を修正せよ」などと指示することになるので、ChatGPTを使い込めば使い込むほど、あっちへこっちへコピペをしまくる事が多くなる。
そんなChatGPTユーザーたちの悩みを解決してくれる新機能が、「Work with Apps (アプリ連携)」機能である。
アプリ連携を有効にすると、わざわざコピペをしなくても、ChatGPTが、自動的に外部アプリで開いているファイルやページを読み取って理解してくれる。Notionやメモ、ターミナル、VS Codeなどの幅広いアプリに対応しており、文書作成やコード作成が楽になる。
他アプリで作業中のコンテキストを理解した状態で、ChatGPTとのチャットができるので、文章やコードの修正方法の質問などを短くシンプルにすることができる。
また、ChatGPTのデータ分析機能などを活かすと、メモアプリに書き込まれた数字や、ターミナルで取得した数値履歴など、外部アプリ内に存在するテキスト形式の数値データを瞬時にグラフ化する、なんてこともできてしまう。
必要なのは、アプリ連携を有効にしたChatGPTに、「グラフにして」と一言指示するだけだ。こうした工夫次第で、可能性は無限に広がっていく。
本記事では、Mac版のChatGPTアプリで、外部アプリ連携を有効にし、作業効率をさらに改善する方法を詳細に解説する。
なお、アプリ連携機能のアップデートは、2024年12月のクリスマスまで毎日実施中のOpenAIによる新機能発表ライブ配信「12 Days of OpenAI」において、11日目に発表されたものである。
他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。日本時間の火曜〜土曜の午前3時にライブ配信が行われるので、次回の解説もお楽しみに。
「Work with Apps」機能は、2024年12月現在、macOS版ChatGPTアプリのみに実装されている。時期は明示されていないが、近々、Windows版にも実装予定だという。
テキストエディタやコードエディタ、ターミナルなど、ユーザが利用中のアプリケーションと直接連携し、アプリ内のコンテキストを理解した上で、回答を提供してくれる。
アプリ連携機能を有効にする方法は、以下の通りとても簡単だ。
記事執筆時点で、対応している外部アプリの一覧は以下の通りである。
多くの人は、NotionやApple純正のメモアプリなど、ドキュメント作成ツールでの利用が中心になりそうだ。エンジニアであれば、Xcode、VS Code、Warpやターミナルへの対応は非常にありがたいところだ。
アプリ連携を有効にした時、どこからどこまでの情報がChatGPTアプリに共有されるのかは、アプリの種類によっても異なる。
基本的には、最前面で開いているアクティブウィンドウ内の情報が丸ごと共有され、テキストの範囲選択などを行うと、ハイライトしている箇所の情報も共有される。
ChatGPTに特に見てほしい段落などがあるときは、その段落を選択した状態にすると良いということだ。
いちいちテキストファイル全体をコピペしたり、スクリーンショットを撮ったり、非効率なステップを踏む必要がなくなるので、大幅に手間が削減される。
外部アプリ連携機能は、なんとChatGPTの音声モード中でも利用することができる。
Notionやメモ帳に書いたアイディアを、ChatGPTに見てもらいながら、口頭でディスカッションすることも可能ということだ。
スマホ版のChatGPTアプリには、スクリーン共有機能があるが、あくまで共有できるのは画面に映っている範囲の映像のみだ。
アプリ連携機能を使用することで、画面に映っている領域だけでなく、ドキュメント全体についてChatGPTに情報を与えることができるので、より精度の高い対話が可能になる。
以下では、ChatGPTの外部アプリ連携機能を使って、ドキュメント作成やコーディング作業を効率化するユースケースを紹介する。
などなど、私生活から仕事まで、幅広い応用例が考えられる。
サンプルとして、Notionアプリ内に、ヨーロッパ旅行計画のドキュメントを作成してみた。ドキュメント内には旅程や行き先の候補、どのような目的の旅かなどが記載されている。
ChatGPTでNotionを連携アプリとして有効にした上で、この計画書を踏まえて、ロンドン滞在中の訪問先のおすすめをあげてもらった。
すると、Notionのドキュメントをしっかりと読み込んで、今回の旅行が歴史や文化をテーマとした旅行であると判断した上で、ロンドン滞在中に訪れるべき歴史や文化関連のスポットを紹介してくれている。
いちいち作成中のドキュメントの背景情報を伝えなくても、勝手にChatGPTがドキュメントを読み込んで判断してくれるので、プロンプトを書く手間が大幅に削減される。
従来は、今回の例ならヨーロッパに旅行に行くことや、歴史や文化が好きであることなどを、いちいち打ち込んだりコピペしたりしなければ、質問のコンテキスト・前提情報を共有できなかったので、利便性が大きく改善された。
さらに、アプリ連携機能を応用すれば、ChatGPTアプリのボイスモードで、AIと会話をしながら一緒にドキュメントを作り上げることも可能だ。
まず、アップル純正のメモアプリを使って、新年会の企画書の下書きを作成してみた。
ChatGPTアプリをショートカットで呼び出し、アプリ連携先としてメモアプリを指定して、音声モードを起動する。
すると、会話をしている間、ずっとAIがメモアプリの中身を閲覧できる状態になる。
以下の画像は実際の音声チャットの履歴を表示したものだ。
新年会の企画書の中にある幹事の役割分担の箇所について、既存のドキュメントにすでにある役割以外のアイディアを考えてもらうことなどができている。
従来のチャット形式のコミュニケーションを超えて、一緒のアプリを確認しながら、口頭でディスカッションをするという、まさにAIがパートナー・エージェントとして機能する、未来を感じる機能だ。
macOS版ChatGPTの「Work with Apps」機能をVS Codeなどで利用するには、専用の拡張機能をインストールする必要がある。
VS Code系のテキストエディタを利用している人は、まずは、以下の手順で拡張機能を入手してこよう。
CMD + Shift + P
)を開き、「Extensions: Install from VSIX…」を実行する。筆者はVS CodeフォークのCursorを利用しているので、以下はCursorで利用した例である。
拡張機能をインストールした状態であれば、ChatGPTのアプリ連携の選択肢としてVS Codeが表示されるはずだ。
例えば、既存のコードにAPIの処理速度を測定するためのコードを加筆したいとする。ChatGPTのデスクトップアプリをショートカットキーで呼び出して、テキストエディターと連携し、追記したい内容を指示する。
アプリ連携機能は、o1, GPT-4oなどどのモデルでも利用できるので、o1モデルを選択すればより高度な内容も対応できる。
すると、既存のコードの中にある関数を的確に理解した上で、修正案を考案してくれた。
アプリ連携機能で、自動でコンテキストがChatGPTに共有されているため、既存のコードベースを自分でせっせとコピペする必要がなく、圧倒的に作業効率が改善する。
ただし現状では、ChatGPTが出力したコードをVS Codeに反映するために、自分でコピペを行う必要がある。
テキストエディタからChatGPTへの自動連携は可能になったが、ChatGPTからテキストエディタへの反映はまだ手動ということだ。
12 Days of OpenAIのライブ配信の中でもこの点が話題になり、配信の中では今後改善を行うことが宣言されていた。
また、外部連携可能なアプリには、ターミナルやWarpなどのシェルも含まれている。
Warpと連携させた上で、カレントディレクトリを踏まえたコマンドを考えてもらうなどといったことができる。
例えば、日別にGitコミットの件数を集計させるコマンドを尋ねてみた。
さらに、ChatGPTが考えてくれたコマンドを実行した上で、日別のコミット数を、棒グラフにするように頼んだ。
ChatGPTが、連携中のWarpの出力を勝手に読み取って、的確に棒グラフを生成してくれた。
このように、単にターミナルのコマンドを考えるサポートをしてくれるだけでなく、出力をビジュアルで見やすくするといった加工作業までお願いすることができてしまう。
アプリ連携機能を有効にしたからこそ得られる大きなメリットである。
アプリ連携機能は、ChatGPTが単なるチャットボットであった時代の「コピペによる前提情報の受け渡し」という手間を大きく解消してくれる。
ユーザが日常的に使うテキストエディタやコードエディタ、ターミナル、ドキュメント作成ツールと直接つながり、その内容を自動的に理解することで、ユーザはその都度コンテキストを共有する必要がなくなった。
アプリ連携を使うことで、ChatGPTはまるで「業務の流れの中」に自然に存在するパートナーのような位置づけになる。
こちらからプロンプトで指示をしなくても、ユーザーの状況を見渡し、先読みしてサポートする存在へと進化しつつある。デスクトップ版のChatGPTアプリの振る舞いは、「理解ある同僚」や「信頼できるアシスタント」というレベルに近づいてきた。
ユーザは複雑なタスクの途中でパートナーに助言を求め、その応答を即座に業務に反映しながら、一連の流れの中で自然とAIとの協働を続けていく・・・。そんな「能動的なエージェント」へとAIが進化する未来のスタートラインという感じだ。
Windows版のアプリが早く登場することを祈りつつ、Mac版の今後の発展も期待したい。
]]>ChatGPTを開発するOpenAIは、クリスマスまでの平日毎日、新機能や新製品をライブ配信で発表する「12 Days of OpenAI」を実施中である。
その8日目(12月17日)の発表で、ChatGPTの「検索」機能に関する様々なアップデートが紹介された。
多くの人に影響する点としては、これまで有料ユーザーしか使用できなかった検索機能が、無料ユーザーにも開放されたことだろう。
実は、ChatGPTの検索機能は、検索結果のマップ表示や、動画の埋め込み再生など、Google検索を完全に代替しうるほど高機能になりつつある。
驚くほどスムーズにWeb検索作業をAIがサポートしてくれるので、まだ一度も使ったことのない人は、無料化されたことだし、是非とも体験してみるべきだ。
本記事では、現在ChatGPTの検索機能で出来ることを全て網羅的に紹介する。
また、OpenAIによるライブ配信でデモが行われた具体的な使用例についても触れながら、徐々に注目されつつある「AI検索」で、私たちの生活のいったい何が変わるのか?を掘り下げてみる。
なお、他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。日本時間の火曜〜土曜の午前3時にライブ配信が行われるので、次回以降の解説もお楽しみに。
ChatGPTの検索機能は、2024年10月末に最初のリリースが行われ、ChatGPTの有料会員プランであるPlus、Teamの利用者だけが利用できる機能だった。
2024年12月の「12 Days of OpenAI」では、全体的に検索機能がブラッシュアップされ、高速化や、UI・見やすさの改善などが行われている。
12月17日より、ChatGPTのアカウントにログインしている全てのユーザーが、検索機能を利用できるようになった。
これによって、Plusプランなどに課金していない人でも、ログインさえすれば、検索機能を使ってみることができる。
ChatGPTによるWeb検索を行うには、Web版・スマホアプリ版などで、地球儀のマークをオンにして検索キーワードを打ち込むだけだ。
たとえば、「東京の天気」と打ち込んでみると、結果を天気イラストと共にシンプルに返してくれた。
通常のWeb検索よりも圧倒的にノイズが少なく、要点だけが回答されるため、AI検索の方が便利な場面も様々あるだろう。
ブラウザの「デフォルトの検索エンジン」としてChatGPTを設定することが可能になった。
ChatGPTのWeb版を開き、右上の自分のアイコンをクリックすると、「ChatGPTの検索拡張機能を取得する」というメニューがあるはずだ。たとえばGoogle Chromeであれば、OpenAI公式のChromeの拡張機能にリンクされる。
デフォルトの検索エンジンとして使用する上では、ChatGPTやPerplexityなどのAI検索ツールにはデメリットも多かった。
たとえば、AIが集めた情報を整理整頓した上で回答が表示されるので、単純に「Netflixを開きたいだけ」といった場合に、無駄に時間がかかるのだ。
今回のChatGPTのアップデートでは、そうした単純なWebアクセスのために使われることも想定した改善が行われている。
「ホテル予約サイト」などとChatGPTに聞いてみると、回答が生成される前に、即座にWebサイトへのリンクが表示されるのだ。
ChatGPTの検索機能の結果表示が全体的にブラッシュアップされ、より見やすくなり、地図上の位置表示など従来の検索エンジンと似たような機能も追加された。
上で紹介したように、天気予報がアイコン付きで綺麗にレイアウトされ表示されるなど、必要な情報が整理整頓され表示されるのは、AI検索の大きなメリットである。
2024年12月のアップデートでは、動画を直接ChatGPTの中で再生することも可能になった。
たとえば、最新のライオンキングの映画のトレーラームービーを調べて、と伝えると、YouTube動画が埋め込まれて表示され、ChatGPTのWeb版の中で直接再生することができた。
また、ChatGPTのスマホアプリでも、「東京の良い中華料理レストラン」などとChatGPTに聞いてみると、地図がチャット内に埋め込まれて表示され、地図上で店舗を選択できるようになった。
個別のレストランをクリックして、レビューや営業時間なども確認できるので、まるでGoogleマップのように、ChatGPTを利用できる。
また、一度検索をしてもらった後も、別の条件で再検索や絞り込みをしてもらうことも可能だ。会話形式で、検索結果を深めていくことができるのは、Google検索やGoogleマップなどに対する優位性かもしれない。
たとえば、「六本木でビールの美味しいお店」を検索してもらった後で、「テラス席がある店は?」と聞いてみた。
ChatGPTと音声で会話をすることができる音声モードでも、ChatGPTがWeb検索をしてくれるようになった。
これによって、ハンズフリーで、ちょっとした調べ物をAIに任せることができるようになる。
たとえば、料理中にChatGPTと音声モードで会話しながら作業を進め、なにかしら調理法を知りたい時に、ChatGPTにウェブ上からレシピを探してきて、音声で解説してもらう、なんてことができてしまう。
音声でリアルタイムの最新情報をChatGPTが集めてくれるのは、地味に便利なアップデートだ。
12 Days of OpenAIのライブ配信では、旅行先で週末に行われるイベントを調べさせたり、旅行先のスイスの気温を調べてもらったり、実用的なデモが行われた。
なお、2024年12月18日現在、筆者のChatGPTのアカウントでは、まだ音声モード中の検索機能を利用することができなかった(何回聞いても検索してくれない)。これから徐々にロールアウトが進むものと思われる。
以上で紹介したように、ChatGPTの検索機能に様々なアップデートが行われ、スピードもインターフェースもより快適に使えるように改善された。
AI検索が、既存の検索エンジンを置き換えるかどうか、がよくメディア等で議論されるが、置き換えようが共存しようが、一定のタスクにおいて便利であることは間違いない。
ChatGPTが検索作業を代行してくれて、情報を瞬時に要約し、必要な情報だけを見せてくれるというAI検索の利点は、十分に魅力的なものであり、今後もChatGPTの検索を使う機会は増えていきそうだ。
調べ物の内容によっては、いよいよChatGPTの検索機能だけで事足りることも出てくるだろう。
とはいえ、まだまだ現状では、レストランを調べるにしても、Googleマップで高評価・営業中で絞り込むなど、AIに頼むより自分でフィルタをかけ絞り込んだ方が有用な場合も多い。
ただ、そういった人間の工夫も、AIによって代替される日も近そうだ。
とりあえず新しいツールには慣れておかないと、いつの間にか世の中の大半がGoogle検索からChatGPTに乗り換えている、なんてことも起きかねない。
(いまだにYahoo検索を使っている古参ユーザー達がいるように)
ChatGPTのスマホアプリで使える「音声モード」は、AIと音声による自然な会話ができたり、周囲の様子をカメラで映してリアルタイムでAIに解説してもらったり、SFの世界のような体験ができる機能だ。
日本語への対応はもちろんのこと、英語、フランス語、ドイツ語、中国語などなど数十カ国のあらゆる言語に対応しているので、英会話のレッスンをお願いしたり、海外旅行の際の同時通訳者になってもらったり、外国語の看板を読んで解説してくれるガイドになってもらったり、無限の可能性がある。
中でも、非常に便利な使い方としてオススメしたいのが、ポケトークのような同時通訳デバイスとしての利用法だ。
プロンプトを工夫すれば、全く知らない言語であっても、違和感なく相手と会話することができてしまう。
驚くほど実用的なレベルで、遅延もかなり少ないため、これからの海外旅行には、絶対にChatGPT入りのスマホを持って行った方がいいと思えるほどのクオリティになっている。
まさにドラえもんに出てきた夢の「ほんやくコンニャク」にかなり近い世界が近づいていることを予感させてくれる。
ChatGPTのiOSアプリ・Androidアプリで、無料ユーザーでも音声機能は体験でき、有料のPlus, Pro, Teamsプランに加入しているとビデオやスクリーン共有を含む全ての機能が利用できる。
OpenAIの開発したテキスト、音声、ビデオを全て処理できるGPT-4oモデルを活かした機能だが、本当に「見る・聞く・話す」ができる五感を備えた人間と会話しているようだ。
この記事では、ChatGPTアプリを同時通訳としてうまく動かすためのプロンプトを紹介し、この革命的な技術の使いこなし方を解説する。
音声会話機能は、iOSとAndroidのChatGPTモバイルアプリで利用することができる。
また、MacやWindows用のデスクトップアプリでも音声モードは利用できるが、ビデオ共有・スクリーンショット共有機能は、執筆時点でまだ実装されていない。
スマホ版のChatGPTアプリを開くと、右下に音の波形のようなマークが表示されているはずだ。これをタップすると、音声認識のモードが起動される。
ユーザーは9種類(+期間限定のサンタボイス)の声から、使いたい声色を選択することができる。
この時点でサンプルボイスが再生されるが、ほとんどAIのような不自然さを感じない、驚くほど自然なボイスが生成されている。
対話モードが無事に起動されると、画面の中央に水色の球体が表示される。
画面下部のアイコンから、マイクをミュートしたり、ビデオカメラを起動して映像をリアルタイムで見せたり、写真の撮影・アップロード、スクリーンの共有などをオンにすることも可能である。
この状態で何かを話しかければ、驚くほど自然な会話調の声を返してくれる。笑ったり、早口にしたり、感情の抑揚すらも自然に表現される。
音声モード中は、録音のオンオフなど手を動かすことは不要で、人間が話し終えれば、勝手にAIがリアクションしてくれる。また、AIが喋っている途中であっても、人間が割り込んで次の話題を振ることもできる。
音声会話中に字幕は表示されないが、画面下部のバツボタンをタップして音声会話を終了すると、その会話の最初から最後までの文字起こしがChatGPTとのテキストベースのチャットウィンドウに追加されるので、履歴を確認することも可能だ。
数時間ごとの利用回数に上限があるので、あまり長く会話をしすぎると、この制限に引っかかってしまうかもしれない。
ただ、常識的な量の会話をするくらいであれば、上限に到達することなく、かなり会話のラリーを続けることができる。
ChatGPTの音声会話機能を、同時通訳のために使うには、少し工夫が必要になる。
なぜなら、本来のChatGPTが想定している形(人間1人とAIの対話)とは異なる使い方をするためだ。
2人の人間が、交互に異なる言語でChatGPTに話しかけ、ChatGPTにはその翻訳だけをしてもらう、というイレギュラーなケースなので、プロンプトを工夫せねばならない。
適切なプロンプトを使わないと、ChatGPTは通訳として働くのではなく、普通に会話の内容に対してリアクションをしてきてしまう場合がある。
例えば、「通訳して」と言った上で自己紹介をしたのに、こちらの言ったことを日本語から英語に訳した後に、その内容に関して「いいですね!もっと詳しく教えて下さい」みたいな余計な追加のコメントをしてきてしまうことがあるのだ。
そこで、音声会話機能をオンにした上で、最初に話しかけるべき内容は次の通りである。
あなたの役割は同時通訳者です。 日本語が聞こえたら英語に翻訳し、 英語が聞こえたら日本語に翻訳してください。 翻訳以外のことは行わないでください。
「翻訳以外のことは行わないで」と伝えることで、余計なリアクションをすることを防げる。
「日本語」や「英語」の部分は、「中国語」「ドイツ語」「イタリア語」などなど、実際に会話をしたい相手の言語に合わせて変更すれば、どんな言語でも翻訳してくれるスーパー翻訳デバイスになる。
実際に中国語で実験してみた様子が以下だ。
ChatGPTが翻訳以外の余計なことは一切することなく、日本語を英語・中国語・ドイツ語などこちらが指定した言語に淡々と翻訳して音声で返してくれていることがわかる。
自分の発言が翻訳されたら、次は会話相手の外国人にも、スマホに向かって喋って貰えば、相手の話した内容を日本語に翻訳して音声で返してくれる。
このプロンプトは、音声機能をオンにした直後に、最初に音声によって伝える必要があるので、覚えておくことをオススメする。
これを、実際に外国人との会話で、どこまで実用的に使えるのかを、友人の中国人に協力してもらって試してみることができた。いったいどれくらい実用的なレベルで翻訳に使えるのだろうか。
実際に音声会話機能を使って日本語と中国語で交互に会話していた時の履歴が以下だ。
まず驚かされるのは、音声認識機能の精度がそもそも非常に高いと言うことで、日本語でも中国語でも、スマホに向かって喋った内容がかなり正確に文字起こしされている。
その上で、それを訳してリアクションをしてくるまでの秒数も数秒で、会話のテンポがほとんど落ちなかった。
音声もかなり自然なので、本当に目の前の人と違和感なく会話をしているような気分になってくる。
また、まれに書き起こしが間違っていても、翻訳するにあたってAIが正しい内容を推測して修正した上で翻訳してくれるので、会話を違和感なく続けることができる。
例えば、上記の会話のうち、後半はダイエットに関する会話で、僕が「基礎代謝量」と言ったのを正しく音声認識できていない。
しかし、その直後の中国語への翻訳は、基礎代謝を正しく訳出している。
文字起こしで少し誤字や聞き取り間違いがあっても、AIが文脈から意味を推測して補完してくれるのだ。
英語ではチャット履歴の文字起こしを含めてほぼ完璧なのだが、日本語を使うと、終了後にチャット履歴を見返した際、結構日本語の文字起こしに誤字が目立つ。
とはいえ、音声対話モード中は、会話が食い違うことなく継続でき、日本語力不足を感じることもないので、AIによる文脈の補完がかなりうまく機能しているのだと思われる。
2024年12月にリリースされたばかりのビデオ・スクリーン共有機能によって、より一層ChatGPTアプリの海外旅行時の通訳としての活躍の幅が広がった。
単なる同時通訳デバイスを超えた、真の専属通訳ガイドとして進化したと言えよう。
ChatGPTのスマホアプリで、音声モードを起動したのち、ビデオアイコンをタップすると、iPhoneやAndroidスマホのカメラの映像を、リアルタイムでChatGPTに解析させることができる。
例えば、筆者がドイツ旅行中に購入した入浴剤のパッケージを見せながら、それぞれの入浴剤の名前の意味や、効能について聞いてみると、丁寧に解説してくれた。
筆者が「ドイツの薬局で入浴剤を選ぶのを手伝って」というと、パッケージを読み解きながら、左右の商品がそれぞれどのような商品であるかを解説してくれている。
映像や静止画をChatGPTに渡して、しかもそれについて音声で会話ができるようになると、外国語がめちゃできる友達が常に自分の隣にいてくれるような状態で、海外旅行を楽しむことができる。
お土産ショップで商品パッケージの外国語が読めない時、駅やバス停で次の電車・バスが何時に来るかが読み取れない時、駅構内の看板の意味がわからない時、いつでもChatGPTアプリを取り出せば、即座に日本語に翻訳して解説してくれる。
たとえ英語が全くできなくても、スマホにChatGPTアプリさえ入っていれば、誰でも気軽に海外旅行ができてしまう時代が到来したのだ。
数年前にこんな話を聞かされていたら、きっとSFの世界だと感じていたかもしれない。
ここ1〜2年のAI技術の急速な発展で、突如としてSFが現実世界に実現されてしまったことに衝撃を受ける。
2024年5月にリリースされたGPT-4oは、従来のテキストと画像のみに対応していたGPT-4 Turboとは異なり、テキスト、画像、音声、ビデオと、より幅広いメディアの入力に対応した真のマルチモーダルモデルだ。
従来のボイス機能は、ユーザーが発話した音声を、Whisperモデルが書き起こして、GPT-4 Turboが回答のテキストを考案し、Text-to-Speechモデルがテキストを音声化していた。
3つのAIモデルが共同作業を行なっているので、どうしてもスピードが落ちることになる。
これに対して、GPT-4oは、音声入力から音声合成までを、すべて一人で完遂できてしまうのが革命的なところ。
ユーザーが発話した音声を、GPT-4o自身が聞き取って、即座に回答を考案し、GPT-4o自身が音声を合成して発言する。
OpenAIによれば、旧来のボイスモードの平均レイテンシーがGPT-3.5で2.8秒、GPT-4で5.4秒であるのに対し、GPT-4oでは0.32秒にまで短縮されており、ほぼ人間と会話しているのと変わらないほどの応答スピードとなった。
このGPT-4oが、発表から4ヶ月経った2024年9月にChatGPTアプリの「高度な音声モード」に実装され、さらに2024年12月に、とうとうビデオ共有・スクリーン共有機能までもがロールアウトされた。
同時通訳として活用する上でも、会話のラグがほとんどないし、ビデオカメラで外国語のパッケージを映しながらAIが瞬時に解説してくれる様子を体験すると、本当に実用的なレベルに達したと感じる。
下手をすれば、人間の同時通訳者を雇うよりも、ChatGPTの高度な音声モードの方が翻訳のスピードが速いと思う。
ChatGPTの音声対話機能を利用すると、自分が全く知らない言語でも、最小限のタイムラグで、自然な会話を楽しむことができる。
ChatGPTは日本語と他言語が交互に混ざっても正確に使い分けてくれるため、言語のバリアを感じることが減る。
旅行先で初めて会った言葉の通じない相手との雑談を楽しむことができるかもしれない。全く言語が話せない国に旅行しても、タクシーで道を聞いたり、ホテルの受付で設備について質問することもストレスなくできてしまうかもしれない。
この技術がもっと進歩すれば、将来的には外国語のバリアがなくなるかもしれないとさえ感じる。
ChatGPTの音声対話機能は、人々が言語の壁を超えてコミュニケーションを取る手助けとなり、世界がさらにつながる一歩となるだろう。
音声認識AIも音声合成AIも、信じられないほど技術が進歩していて、本当にドラえもんの「ほんやくコンニャク」がほぼ実現されてしまったと言っても過言ではない
ぜひこの記事を参考に、外国人との会話にChatGPTを同時通訳として使ってみて、未来を感じてみてほしい。
]]>ChatGPTを開発するOpenAIは、クリスマスまでの平日毎日、新機能や新製品をライブ配信で発表する「12 Days of OpenAI」を実施中である。
その6日目(12月13日)のライブ配信で、ChatGPTの「音声モード」のアップデートが発表され、カメラの映像をリアルタイムで読み取らせたり、スマホやPCの画面をリアルタイムで共有したりすることが可能になった。
これらの「Live camera」モードは、早速、ChatGPTの有料プランであるPlus, Pro, Teamsユーザーが利用できるようになっている。
これにより、視覚障害のある人が周囲の状況をAIに解説させたり、子どもの宿題をAIに指導させたり、ChatGPTが従来のチャットUIを飛び出して、実生活でさまざまな応用が広がりそうだ。
本記事では、ChatGPTの音声モードにおけるビデオ共有、スクリーン共有機能の概要や使い方をまとめる。
また、このスゴすぎる機能を、仕事や私生活で活用する方法のアイディアを紹介する。
なお、他の12日間の発表内容の総まとめ・解説記事は、こちらのタグ「12 Days of OpenAI」から確認することができる。日本時間の火曜〜土曜の午前3時にライブ配信が行われるので、次回以降の解説もお楽しみに。
今回の追加された新機能は、「音声モード」(Advanced Voice Mode)への「動画」および「画面共有」機能の追加である。これにより、ChatGPTとのやり取りにリアルタイムのビデオ映像や画面を共有することが可能となる。
iPhone, Androidのモバイル版のChatGPTアプリで利用できる。
使い方はとても簡単で、ChatGPTアプリでAIと音声による会話ができる「音声モード」を起動した後、カメラ・スクリーンシェアのいずれかをオンにすれば良いだけだ。
前提として、ChatGPTのアプリを最新版にアップデートする必要がある。アップデート後の初回起動時には、以下のような「Live camera」ベータ版の案内が表示された。
まずは、ChatGPTのアプリの画面右下にある波形のマークをタップして、「音声モード」を起動する。
音声モードでは、AIと双方向の自然な会話をすることができる。人間が話すのを止めるとAIが話し始め、AIが話している途中で割り込んで質問をすることなどもできる。
画面下部に、「ビデオ」アイコンが表示されており、これをタップすると、iPhone / Androidのカメラの映像をChatGPTに共有できる。
また、「・・・」アイコンをタップすると、スクリーン共有の開始、写真の撮影・アップロードを選択できる。
実際にiPhoneのChatGPTアプリで、Live cameraを有効にしてみると、以下のようにリアルタイムでカメラの映像を見ながら、ChatGPTと会話することができる。
「これは何?」と聞いてみると、「これはワイヤレスキーボードですね。おしゃれで使いやすそうです!」と答えてくれた。
また、iPhoneで「Share Screan」(スクリーンを共有する)を選択してみると、画面の録画が開始され、ChatGPT以外の別のアプリに移動しても、ChatGPTと会話を継続することができる。
iPhoneで書籍やWebサイトを閲覧しながら、ChatGPTにそのページに関する質問を投げかける、なんてことができてしまう。
従来のChatGPTは、テキスト・音声のみでのインタラクションだったが、動画と画面共有が加わることで、利用ケースはさらに広がりそうだ。
ここでは、筆者が実際にChatGPTのビデオ・スクリーン共有機能を試してみる中で、使えそうだと感じた用途をいくつか紹介する。
また、OpenAIによる公式ライブ配信中で紹介された事例もまとめた。
筆者が最も実用的と感じたのは、外国語の道路標識・看板や、外国の商品パッケージなどを日本語で解説してくれるスーパー通訳アプリとしての活用だ。
例えば、ドイツ旅行中に購入した入浴剤のパッケージが、当然ドイツ語なため、何が書いてあるのかさっぱり分からない。
そこで、ChatGPTに、パッケージを見せながら、その効能などを説明してもらった。
その際の音声による会話の履歴は、そのままチャットとしてテキストに残り、後から見返すことができる。
以下の履歴のように、映像からでも正確にパッケージを読み取り、左右の入浴剤の意味を解説してくれている。
この例のように、ChatGPTは、海外旅行時の心強い通訳になってくれるだろう。
海外旅行中に、駅構内で迷った場合も、ChatGPTにビデオを見せながら、どうやって目的地に辿り着けるかをアドバイスしてもらうことができる。
外国のレストランなどでメニューの意味がわからない時に、食べたいものを指定して、最適な料理を選んでもらうこともできる。
当サイトの過去の記事で、ボイスモードを同時通訳アプリとして使う方法を紹介しているが、それにビデオ機能がついたことで、さらに実用的な通訳アプリへと進化したと言える。
ChatGPTは、数学の問題などを解くこともできるので、家庭教師のように使うことも可能である。
子どもに数学の勉強を教えてあげる時間がなくても、ChatGPTにカメラでノートを見せながら、宿題についての質問をすれば、的確にChatGPTが回答してくれる。
例えば、メモ帳に二次方程式を書いて、解法のヒントを聞いてみた。
すると、正確に数式を読み取って、因数分解の方針を示してくれた。
このように、ChatGPTは、さまざまな勉強のコンパニオンとして使用できる可能性を秘めている。
英会話のパートナーとして、無限に英会話の練習に付き合ってくれるし、どれだけ数学の質問を重ねても怒らない。
AIに答えを教えてもらっていたら成長しない、という懸念もあるかもしれないが、無限に質問をできて、宿題や勉強にずっと付き合ってくれる家庭教師を、たった月20ドルで雇うことができると考えたら、そのインパクトは計り知れない。
ChatGPTを自由に使えるかどうかで、教育の格差が広がってしまいそうな恐怖すらも感じる。教育分野でも凄まじい革命が起きそうな予感である。
また、ChatGPTのスクリーンシェアリング機能を使えば、業務や仕事にもChatGPTのパワーをもっと活かすことができるようになる。
例えば、スプレッドシートでの集計作業は、ChatGPTに質問したくても、プロンプトを作成するのが大変だった。
表の何列目にどんなデータが入っている、といった情報を、いちいちテキストに打ち込んで質問するのが面倒だからだ。
その点、スクリーン画面を直接ChatGPTに見せることが可能になったことで、もっとスムーズに、業務上の質問をChatGPTに聞くことができる。
例えば、以下のような商品売り上げデータのサンプルを用意して、スクリーンを共有しながら、商品カテゴリごとの売上合計額を計算する方法を尋ねてみた。
すると、ピボットテーブルを使う方法や、SUMIF関数を使う方法を、音声で丁寧に解説してくれた。
より身近な使用例としては、日々のチャットやメールのやり取りで、返信を考えるのが面倒な時に、ChatGPTにアイディアをもらう、なんてことも可能だ。
どんなアプリのスクリーンでも共有することが可能なので、例えばiMessageで、友達をカフェに誘う気の利いた一言を、ChatGPTに考えさせることも可能だ。
実際に、女性をカフェに誘うのに適した英語を聞いてみると、いろいろと考えてくれた。
返信を考えるのが面倒なチャットなどがあれば、ChatGPTに画面を共有して過去のチャット履歴を見せながら、返信をブレストしてみてはどうだろう。
何かと面倒なメールやチャットを先延ばしにしがちな筆者としては、ChatGPTが背中を押してくれるので、非常に助かる機能だ。
そのうち、この機能が普及したら、実は人間同士と思いきや、AIとAIがチャットを回しているなんて世界も来てしまいそうだ。マッチングアプリなどでは、すでに返信を考えるのを自動化している猛者も多いかもしれない。
OpenAIのライブ配信で紹介された例がこちら。
コーヒーを淹れてみたいとして、ChatGPTにビデオで自分が持っているコーヒーを淹れる道具を見せながら、どうやってコーヒーを淹れるかを案内してもらう、というデモだ。
このように、自分がまだ挑戦したことのない趣味や料理などを、ChatGPTに見てもらいアドバイスを受けながら進めることができる。
そのうち、同様の機能がメガネ型のデバイスなどに組み込まれたら、全ての人がAIのサポートを受けながら日常生活を送る、なんて日も近いかもしれない、
12月中は、「サンタ」との音声・動画を介したリアルタイム対話が可能になる特別機能が追加されている。
ChatGPTのボイスモードの設定画面を開くと、ボイスとして「サンタ」が選択可能になっている。
ユーザーは、北極での生活やエルフたちの活動、クリスマス関連の質問などを「サンタ」に直接尋ねられる。サンタは独特の笑い声と口調で応じる。
初回のサンタ会話時には、利用者の「Advanced Voice」使用制限が一度リセットされ、制限に達していてもサンタと話せるようになる。その後も標準音声モードなら制限後でもサンタとの対話は継続可能である。
あまり実用的ではないが、今後もイベント的に有名な俳優のボイスが登場・・・なんてことがあれば面白そうだ。
AIとの極めて自然な会話が可能な「Advanced Voice」モードや、今回実装されたビデオ・スクリーン共有機能は、もともと、2024年5月にGPT-4oモデルがリリースされた際に予告されていた機能である。
9月末にAdvanced Voiceモードが、12月にようやくビデオ・スクリーン共有機能が実装された、ということになる。
リアルタイムでカメラ映像を見せながら、AIと映像について会話ができるというのは、非常に未来を感じる機能で、ずっと楽しみにしていたので、今回の実装はとても嬉しい。
つい数日前の2024年12月11日に、Googleも、同様のビデオ共有が可能な「Stream Realtime」機能をリリースしてネットを騒がせたばかりだ。
しかし、ChatGPTの音声モードの方が、わかりやすいインターフェースで一般向けのアプリに組み込まれている点で、より実用的だと言える。
年末に予定している海外旅行で、早速「優秀な通訳」としてのChatGPTを使ってみようと思っている。
]]>