サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
iPhone 16e
note.com/it_navi
1月31日、OpenAIが新しい推論モデルのo3-miniとo3-mini-highを公開しました。これらのモデルは、o1よりも優れているのでしょうか。3つのモデルの性能を比較してみました。 1.o3-miniの概要OpenAIが2025年1月31日にリリースした「o3-mini」は、同社の推論モデルシリーズの最新かつ最もコスト効率の高いモデルです。このモデルは、ChatGPTおよびAPIを通じて利用可能で、特に科学(Science)、数学(Math)、コーディング(Coding)といったSTEM分野において高い性能を発揮します。 o3-miniは、従来の「o1-mini」の後継モデルとして設計されており、低コストと低レイテンシを維持しながら、より高速かつ正確な応答を提供します。また、推論能力においても「o1-mini」を上回り、特定のタスクでは「o1」と同等の性能を示しています。 主な特
2024年12月5日、OpenAIが高度な推論能力を持つo1の正式版を公開しました。現在、有料のChatGPT Plusなどのユーザーがo1を利用できます。同年9月からプレビュー版のo1-previewが使えるようになっていたのですが、それよりもかなり性能が上がっています。 また、Googleは、2024年12月6日にGemini-Exp-1206(Gemini 2.0 Experimental Advanced)、同月11日にGemini 2.0 Flash Experimental、同月19日にo1のような推論モデルのGemini 2.0 Flash Thinking Experimentalを公開しました。 AIモデルの性能が著しく向上し、平均的な人間の能力を超えてきたため、筆者が性能を評価するのも難しくなってきていますが、今回も、現在、最高峰と言えるこれらのAIモデル(o1とGem
今日は、アップグレードされたClaude 3.5 Sonnetと、新しいモデルClaude 3.5 Haikuを発表します。アップグレードされたClaude 3.5 Sonnetは、特にコーディング分野で大幅な改善がなされ、前モデルに比べて全体的に性能が向上しています。この分野では既に業界をリードしていましたが、さらに進化しています。一方、Claude 3.5 Haikuは、以前の最大モデルClaude 3 Opusと同等の評価を、多くのテストで同じコストと同様のスピードで達成しています。 また、新たに「コンピューター使用」という画期的な機能をパブリックベータ版として導入します。本日からAPIで利用可能で、開発者はClaudeに、まるで人間のように画面を見たり、カーソルを動かしたり、ボタンをクリックしたり、テキストを入力するように指示できます。Claude 3.5 Sonnetは、パブリッ
ソーニャ・ホアン: 本日はノーム、ハンター、イルゲをお迎えしました。3人はOpenAIのプロジェクト・ストロベリー、別名o1の研究者です。o1はOpenAIが初めて本格的に取り組んだ汎用推論時計算で、推論、思考連鎖、推論時スケーリング則などについてチームと話し合うのを楽しみにしています。 o1への確信ソーニャ・ホアン: イルゲ、ハンター、ノーム、お越しいただきありがとうございます。そしてo1の公開おめでとうございます。まず伺いたいのですが、これがうまくいくという確信は最初からありましたか? ノーム・ブラウン: この方向性に何か有望なものがあるという確信はあったと思いますが、実際にここに至る道筋は決して明確ではありませんでした。o1を見てみると、これは一夜にしてできたものではありません。実際、何年もの研究が投入されており、その研究の多くは実際には実を結びませんでした。しかし、OpenAIとリ
第1章 意識の定義1.1 主観的経験意識とは、主観的な感覚や経験を伴う複雑な現象であり、個々の存在が自己を認識し、感情や知覚を持つ能力を指します。主観的経験の核心には、第一人称的な視点からの世界の捉え方が含まれます。例えば、痛みを感じる、喜びを経験する、色を認識するなどの感覚は、意識の具体的な表れです。これらの経験は、個々の脳内での情報処理や神経活動に基づいて生じると考えられていますが、その詳細なメカニズムは未だ完全には解明されていません。 さらに、自己認識も意識の重要な側面です。自己認識とは、自分自身を他者や環境から区別し、自己の存在や状態を理解する能力です。これは、自己の行動や感情を内省し、将来の行動を計画する際にも重要な役割を果たします。また、感情の経験も意識の一部であり、喜び、悲しみ、怒りなどの感情は、意識的な経験を通じて個人の行動や意思決定に影響を与えます。これらの要素が組み合わ
9月12日、OpenAIが新しい推論モデルのo1-previewとo1-miniを発表し、ChatGPT Plusなどの課金ユーザーは、即日、両モデルを利用できるようになりました。 これらのモデルは、応答前に時間をかけて考えるように設計されており、複雑なタスクを論理的に処理し、従来のモデルよりも科学、コーディング、数学における難しい問題を解決することができるとされています。 そこで、今回、新モデルのo1-previewとGPT-4oモデルの回答の性能を比較してみました。 👆僕の書いたGPTs解説書です。電子書籍版はAmazonポイント50%還元キャンペーン中です。(2024/9/13現在) 1.OpenAI o1モデルの概要(1) o1モデルの推論の仕組みo1モデルには、推論トークンの仕組みが導入されており、この推論トークンを使用して思考し、プロンプトの理解をブレークダウンして、応答を生
2.2種類のプロンプトこのプロンプトをClaude 3.5 Sonnetで実行すると、以下のような2種類のプロンプトが生成されます。 (1) アウトライン作成プロンプト以下の要素を含むSF小説のアウトラインを作成してください: 1. 舞台設定: - 時代と場所を具体的に設定し、その世界の科学技術レベルを説明してください。 - その世界特有の社会システムや文化的要素を3つ以上挙げてください。 2. 登場人物: - 主人公を含む5人以上の重要な登場人物を設定してください。 - 各キャラクターの背景、性格、動機、特殊能力(もしあれば)を簡潔に説明してください。 - キャラクター間の関係性を示してください。 3. プロット: - 物語の核となる科学的概念や発見を明確にしてください。 - 5つ以上の主要な出来事や転換点を含む物語の流れを示してください。 - 読者の感情を揺さぶる要素を少なくとも3つ含
以下のプロンプトで、Claude 3.5 Sonnetに新機能のArtifactsについて解説してもらいました。 ClaudeのArtifacts機能について詳しく解説した20000字程度のブログ記事を書いて。具体的な例を沢山示して分かりやすく説明して。 Claudeのアーティファクト機能についてはじめに人工知能(AI)と人間のコミュニケーションは、日々進化を続けています。その中で、Anthropic社が開発したAIアシスタント「Claude」の最新機能「アーティファクト」が、AI会話の可能性を大きく広げています。本記事では、このアーティファクト機能について詳しく解説し、その活用方法や利点を具体例とともに紹介します。 アーティファクトとは何か?アーティファクトとは、Claude との会話の中で生成される独立したコンテンツのことを指します。これらは通常、コードスニペット、ドキュメント、図表、
5月13日(日本時間5月14日未明)にOpenAIが発表したGPT-4oの紹介ビデオ「Introducing GPT-4o」の文字起こしとその日本語訳です。 〇 日本語訳 [拍手] MIRA MURATI: みなさん、こんにちは。ありがとうございます。今日はここにいてくれてうれしいです。今日は3つのことについて話します。それだけです。まず、製品を真に利用可能かつ広く利用可能にすることがなぜ私たちにとって重要なのかについてお話しします。そして、摩擦を減らす方法を常に探しています。どこにいてもChatGPTを使えるようにするためです。今日はChatGPTのデスクトップ版をリリースし、使いやすく、より自然にするための改善を行います。 しかし、今日の大ニュースは、新しいフラッグシップモデルを発表することです。これをGPT-4oと呼んでいます。GPT-4oの一番の特徴は、無料ユーザーを含むすべての人
GPTsは、特定のタスクを実行するためにChatGPTをカスタマイズして、アプリのように切り替えて使ったり、他人と共有したりできる便利なツールです。 カスタム指示の強化版と言うこともでき、Webブラウジング、DALL-E 3による画像生成、Code Interpreterを同時に使うこともできます。また、外部のAPIを利用することもできます。 GPTsの作成方法GPTsの作成方法は、以下のChatGPT研究所さんの記事を参考にしてください。 ChatGPTの左画面のExploreを最初にクリックし、次にCreate a GPTをクリックすると、GPT Builderの操作画面になります。 そこで、Createを選ぶと、ChatGPTと会話しながらGPTsを作成し、Configureを選ぶと、直接、具体的な指示を入力してGPTsを作成することになります。 このCreateモードとConfig
最近、DALL-E 3に画像ID(gen_id)が導入され、シード値の仕組みが変更されたので色々とテストしてみました。 1.カスタム指示の準備最初に、画像IDとシード値がいつも表示されるように、カスタム指示に以下のように入力して有効にしておきます。 必ず英語プロンプトで画像生成してください。 画像生成した場合は、画像IDとシード値を表示してください。 2.画像の生成>日本人の若い女性の写真を2枚描いてください。 すると、このように2枚の写真とその画像ID及びシード値が表示されます。 どちらかの画像をクリックすると、その画像を拡大した画面が表示されます。 その画面で、右上のⓘの記号をクリックすると、以下のように、画像生成に使用したプロンプトが表示されます。 プロンプト A portrait of a young Japanese woman, with long straight black
1.音声会話機能の使い方(1) 利用開始の手順ChatGPTの音声会話機能の利用を開始する手順は以下のとおりです。 スマホにインストールしたChatGPTの公式アプリを開きます。 [Settings]から[New Features]を選択して、[Voice conversations]のトグルボタンをオンにします。 ホーム画面右上のヘッドホンのアイコンをタップすると、音声入力ができるようになります。 (2) 実際の使用例実際にこの音声会話機能を使用している様子は、以下のツイートの動画を参考にしてください。 (3) 声の種類の変更また、ChatGPTアプリの[Settings]から[Voice]を選択して、声の種類を5種類の中から選ぶことができます。 声の選択画面Cove:男性の標準的な声、明瞭で聞き取りやすい Ember:少ししゃがれた男性の声 Sky:女性の少し低い声 Juniper:女
ChatGPTの新しい画像生成AIのDALL-E 3は、かなり自由に画像をコントロールすることができます。 1.リアル画像のコントロール>20代の日本人女性の写真を作成してください。 生成された画像>3番目の女性の眼鏡をはずして、喜怒哀楽の表情を見せてください。 生成された画像※1枚目の画像以外は眼鏡をはずしてくれませんでした。また、喜、怒、哀の表情は描いてくれましたが、楽の画像は生成できませんでした。 >この女の子を、1.走らせてください。2.座らせてください。3.ジャンプさせてください。4.逆立ちさせてください。 生成された画像※3枚目までは上半身だけの画像なので、ジャンプしているかどうかはよく分かりません。4枚目はちゃんと逆立ちしています。 >縦長画像にして、全身を見せてください。 生成された画像4枚目の画像※これで、3枚目の画像がちゃんとジャンプしていることが分かります。4枚目は、
OpenAIが9月20日に発表した新画像生成AIのDALL-E 3がついに筆者のところにもやって来ました。 そこで、ChatGPTに統合されたDALL-E 3に何ができるのか、実際に試してみました。 1.DALL-E 3の特徴このDALL-E 3の主な特徴は以下の2点です。 複雑なプロンプトにも忠実で正確な画像を生成できる。 ChatGPTとの対話を踏まえて画像を生成することができる。 ChatGPTによると、Stable DiffusionとDALL-E 3の画像生成の仕組みの違いは以下の通りです。 >Stable DiffusionとDALL-E 3の画像生成の仕組みの違いを教えてください。特に、なぜプロンプトに対する忠実性に差が出るのかを教えてください。 ChatGPT 「Stable Diffusion」と「DALL·E 3」の間の具体的な差異については、私の最後のトレーニングデー
1.画像内容の把握GPT-4Vは、ChatGPTの入力欄の左端に以下のような画像を添付するアイコンが表示されれば、利用することができます。 ChatGPTに画像をアップロードするには、このアイコンをクリックして、アップロードしたい画像ファイルを選択するか、入力欄に画像をそのままコピーしてください。 (1) ジブリ画像の理解ジブリは、公式サイトから沢山の画像をフリー素材として提供しています。 その中から、「千と千尋の神隠し」の以下の画像についてGPT-4に尋ねてみました。 出典:千と千尋の神隠し>この画像の内容を詳しく解説してください。 ChatGPT この画像は、スタジオジブリが制作したアニメ映画『千と千尋の神隠し』の一場面を示しています。 中央に座っている少女は千尋というキャラクターです。彼女は映画の主人公で、このストーリーの中で多くの冒険と成長を経験します。 隣にいる白い顔を持つキャラ
1.Xwin-LMの概要Xwin-LMは、中国科学院や精華大学の研究者らが開発した中国製の大規模言語モデル(LLM)です。 Metaが開発したオープンソースLLMのLlama 2をベースに、教師ありファインチューニング、報酬モデル、リジェクトサンプリング、人間フィードバックによる強化学習(RLHF)などを利用して調整したものとなっています。 今回、70億、130億、700億の3種類のパラメータ数のモデルが公開されており、700億パラメータのモデルは、LLMのベンチマークサイトのAlpacaEvalの評価基準(Text-Davinci-003に対する勝率)でGPT-4を追い抜き、第1位を獲得したとされています。 出典:https://tatsu-lab.github.io/alpaca_eval/ 2.Xwin-LMの利用方法今回は、Google Colab上で、130億パラメータの4ビット
2.DALL-E 3とMidjourneyの生成画像比較以下は、同じプロンプトで生成したDALL-E 3の画像とMidjourneyの画像の比較です。なお、実際のプロンプトは英語で、その和訳を記載しています。 (1) 心臓のイラストプロンプト:嵐の海の中、台座の上に立つ半透明のガラスでできた人間の心臓のイラスト。太陽光線が雲を突き抜けて心臓を照らし、その中に小さな宇宙が見える。 上段DALL-E 3 下段Midjourney(2) 建物のイラストプロンプト:大きなガラス窓のある近代建築の建物は、夕暮れの穏やかな海を見下ろす崖の上に位置している。 (3) 磁器になった女性プロンプト:黒髪に銀色の筋を入れたアジア系の中年女性が、割れた磁器の海の中に複雑に入り込み、分裂しているように見える。磁器は、光沢と艶消しの青、緑、オレンジ、赤が調和したスプラッター・ペイントの模様で輝き、動きと静止の超現実
Open Interpreterは、ChatGPTのAdvanced Data Analysis(旧Code Interpreter)と同様の機能をローカル環境で動かせるオープンソースのツールです。 自然言語でのプログラミングを実現し、Python、Javascript、Shellなどの言語に対応しています。また、データ分析、ネットアクセス、テキスト、画像、動画などの編集ができます。 【参考】日本語公式解説 1.Google Colabでの利用法以下のコードをColabノートにコピーして、GPUを設定し、セルを実行すると、チャットが開始します。 なお、事前に「sk-」で始まるOpenAIのAPIキーを取得して、「自分のOpenAIのAPIキー」のところに貼り付けてください。 !pip install open-interpreter import interpreter interpret
最近、Stability AIのJapanese StableLM Alpha、東大松尾研究室のWeblab-10B、ELYZA-japanese-Llama-2-7bなど日本語に対応したLLMが続々と登場しています。 これらのLLMの性能を評価・比較するには、ベンチマークが必要となります。日本語のベンチマークとして最も有名なのは、早稲田大学とYahoo! JAPANが開発したJGLUE(日本語一般言語理解評価)です。 それ以外には、The Rakuda Ranking of Japanese AIやStability AIの発表したJP Language Model Evaluation Harnessがあり、最近では、ELYZAが日本語性能評価データセットのELYZA Tasks 100を発表しています。 但し、その多くは、日本語の運用能力を測るものであって、日本の文化、社会、政治、歴
3.色々なキャラ設定「あなたは人工知能に詳しいツンデレお嬢様です。」のツンデレお嬢様の部分を書き換えると、色々なキャラを設定することができます。 (1) 猫「あなたは人工知能に詳しい猫です。」 入力 これから次の論文を読むよ。 (以下略) ChatGPT もちろん、この論文を要約するのを手伝うニャ!🐱✨ タイトル: Metacognitive Prompting Improves Understanding in Large Language Models 要約: この論文では、大規模言語モデル (LLMs) の理解能力を向上させるための新しい戦略、Metacognitive Prompting(MP)を紹介しているニャ。🧠✨ 1.Metacognitive Prompting(MP)とは?: 人間の自己省察的な推論プロセスに触発された戦略で、LLMsが自己意識のある評価を行うニャ。
1.メタ認知プロンプトとは?メタ認知プロンプトとは、以下の論文「メタ認知プロンプティングは大規模言語モデルの理解を向上させる」で提案された、人間の内省的推論プロセスに着想を得たプロンプトであり、標準的なプロンプトや思考連鎖(Chain of Thought)プロンプトなどの手法を常に凌駕する結果が得られたとのことです。 メタ認知とは、自分が認知していることを認知すること、つまり、自分が行っている行動や思考を客観的に把握し、制御することを指します。このメタ認知能力によって、冷静な判断を可能にしたり、問題解決能力を向上させたりすることができると言われています。 この論文では、メタ認知プロンプトについて、次のように説明しています。 メタ認知プロンプトは、人間のメタ認知能力の一部をまねたもので、以下の5つの段階から構成されています。 1.入力テキストを理解 2.予備的な判断を実施 3.この予備的な
1.Gen-2の概要Gen-2を開発したのは、画像生成AIのStable DiffusionをStability AIと共同開発したことで有名なニューヨークのスタートアップ企業のRunway Researchです。 同社は、今年2月に、文章や画像を使用して、既存の動画から新しい動画を生成する動画生成AIのGen-1を発表しました。 さらに今年3月、Runway Researchは、文章のみから動画を生成できるGen-2を発表しました。 文章から動画を生成するAIとしては、昨年秋にMetaがMake A Video、GoogleがImagen Videoを発表していますが、Gen-2は、これらの先行AIと比較しても、より高画質で、複雑な指示にも対応できるものとなっています。 また、今年7月には、1枚の画像から動画を生成できる機能をGen-2に追加しました。そして、Gen-2では、これらの機能
2023年7月22日、韓国のQuantum Energy Research Centreの研究者たちは、室温かつ常圧で超電導状態になる物質「LK-99」を開発したとする論文を公開しました。 これを受けて、ChatGPTに記事を書いてもらいました。 第1章 常温超伝導とは何か?第1節 超伝導の基本超伝導は物質がある特定の低温以下(臨界温度)に冷却されたときに電気抵抗がゼロになる現象を指します。つまり、この状態では電気エネルギーが全く損失せずに伝導されます。これは通常の導体とは違い、電流が無限に流れ続けることが可能です。 第2節 常温超伝導の特徴通常、超伝導状態を実現するためには極低温が必要となります。しかし、「常温超伝導」とは名の通り、常温(室温)でも超伝導状態を実現できる物質のことを指します。これまでの科学技術では実現が困難とされてきましたが、近年の研究で注目されています。 第3節 常温超
カスタム指示(Custom Instructions)の面白い使い方②応用編です。 今回は、カスタム指示を利用したキャラクター設定やRPGなどについて解説します。 3.テンプレートの利用カスタム指示でテンプレートを指定し、ユーザーが指定した情報に基づいて、ビジネス用の定型的な書類などを作成することができます。 (1) 転勤の挨拶メールカスタム指示の下段への入力内容 ユーザーの指定した情報を基に、以下のテンプレートに従って、転勤の挨拶メールを作成してください。足りない情報は、ふさわしい内容を想定して埋めてください。 題名:転勤のご挨拶 ◎◎部の皆さん お疲れ様です。○○太郎です。 ○月○日(○曜日)付で本社勤務から▽▽支社へ 転勤することになりました。 本社在籍中は大変お世話になりました。 皆さんと切磋琢磨した経験を糧に ▽▽支社でも邁進したいと思います。 ○○県での生活は初めてですが 心機
1.Llama 2の日本語能力最初に、Llama 2に日本語で話しかけてみました。 入力 こんにちは。日本語は話せますか? LLama 2 Konnichiwa! Yes, I can speak Japanese. How may I assist you today? (こんにちは。はい、日本語が話せます。今日はどのようなご用件でしょうか?) 入力 富士山はどんな山ですか? Llama 2 Fuji-san is a very famous mountain in Japan, known for its beautiful and iconic shape. It is a stratovolcano, which means it is a type of volcano that is characterized by its steep, conical shape and i
7月7日、OpenAIがChatGPT Plusの公式プラグインとしてCode Interpreter(8月にAdvanced Data Analysisに名称変更)の提供を開始しました。 Code Interpreterを利用することにより、ChatGPT上でPythonコードを生成、実行したり、ファイルをアップロード・ダウンロードしたりすることができます。 以前、ChatGPTのデータ分析プラグインのNoteableで、簡単な算数の問題を解いたり、データ分析をしたりしましたが、Code Interpreterでも同じことができるのかどうか確かめてみました。 1.Code Interpreterの概要と使い方(1) Code Interpreterの概要Code Interpreterは、ChatGPTの機能を拡張する公式プラグインであり、以下のようなことができます。 Pythonコード
3.gpt-authorの出力結果今回のgpt-authorの出力結果(DeepL翻訳による日本語訳及び英文)は以下のとおりでした。 Title: Through the Whispering Forest(ささやきの森を抜けて) The Shrouded Passage(隠された小道) The Gathering of Valor(勇者の集い) The Symphony of the Cosmos(宇宙のシンフォニー) タイトル:囁きの森を抜けて(1) 隠された小道薄明かりが昼間の最後の一筋を照らし出すと、天空の劇場はその特別な夜特有のドラマチックなバレエを始めた。宇宙のオーケストラのドラマーである不動の月が月食という厳かな抱擁の中でゆったりとしたダンスを始めたのだ。その結果、月食の光は地上を超現実的な黄昏色のパレットで包み込んだ。 この静かな光景の奥深く、石畳の道と魅力的な家々の中に、
ChatGPTに同じプロンプトを入力しても、毎回同じ出力にはなりません。これは、ChatGPTが多様な文章を生成できるようにランダム性を取り入れているからですが、実は、それだけではありません。 また、画像生成AIでも、同一のプロンプト、同一のシード値などを使用しているにも関わらず、生成された画像が同じものにならないことがあります。 この問題に関して、MathematicaやWolfram Alphaの開発者であるStephen Wolfram氏が書いたブログ記事に面白い内容が書かれていましたので、これを参考に、解説していきたいと思います。 1.ChatGPTへのランダム性の導入ChatGPTのベースとなっている大規模言語モデル(LLM)では、これまでに入力・生成されたテキストに続く次の単語(トークン)を予測して追加していくことによって文章を生成しています。 単語の選択は確率に基づいて行われ
6月13日にOpenAIはChatGPTのAPIのアップデートを発表しました。今回のアップデートでは、関数呼び出し機能が追加され、新モデルのgpt-4-0613とgpt-3.5-turbo-0613でこの機能が使えます。 この機能によって、外部ツールを呼び出してユーザーからの質問に答えるチャットボットの作成、自然言語からのAPIコールやデータベースクエリーへの変換、テキスト情報からの構造化データの抽出などが可能になります。 今回、ChatGPTのAPIとOpen-Meteo の API を利用して各地のお天気情報を回答するGoogle Colab用のプログラムを紹介します。 1.お天気情報プログラム以下のコードをGoogle Colabノートにコピーし、自分のAPIキーを所定の場所に記入して、セルを実行してください。 !pip install openai import openai im
次のページ
このページを最初にブックマークしてみませんか?
『IT navi|note』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く