機械学習入門:
「知識ゼロから学べる」をモットーにした機械学習入門連載の第4回。過学習を抑えて予測精度を向上させるための「正則化」手法として、ラッソ回帰とリッジ回帰に注目。その概要と仕組みを図解で学び、Pythonとscikit-learnライブラリを使った実装と正則化の効果も体験します。初心者でも安心! 易しい内容です。
AI・機械学習の用語辞典:
用語「AIエージェント」について解説。特定の目標を達成するために、必要なタスクを自律的に作成し、計画的に各タスクを実行するAIシステムのこと。これにより、人間の作業を大幅に自動化できる可能性がある。また、複数のAIエージェントを組み合わせることで、より高度な自動化が期待されるAIマルチエージェントも登場している。
Deep Insider's Eye 一色&かわさきの編集後記:
かわさきからは「買っちゃった!」というタイトルでNPU搭載のノートPCを手に入れてローカルLLMを動かしてみたことについて、一色からは「文章を引き締める技術」というタイトルで「する」や「行う」などの抽象的な表現を具体的な動詞や表現に置き換える技術について書きました。
AI・機械学習の用語辞典:
用語「AIアライメント」について解説。AIシステム(主に大規模言語モデル)が人間の意図や倫理観に沿うように、AIを訓練、調整するための技術や理念のこと。これにより、AIが社会や人間にとって安全(つまり無害かつ正直)で、役立つ存在にすることを目指す。
AI・機械学習の用語辞典:
エッジAIとは、エッジデバイス(=インターネットにつながる“IoT”対応機器やスマートフォンなど、利用者に近い場所にある端末)上で動作するAIのこと。データをクラウドに送信せずにデバイス内で処理するため、プライバシーが保護され、限られたリソースで効率的かつ高速に動作する特徴がある。
AI・機械学習の用語辞典:
用語「ASI(人工超知能)」について解説。AGI(汎用人工知能)が人間と同等の知能を持つのに対し、ASIはそれを超えて、人間をはるかに超える知能を持ち、あらゆる分野で最も優れた能力を発揮するAIのことを指す。また、ASIは自律的に自己改善を行う特徴を持つとされている。
AI・機械学習の用語辞典:
用語「ジャッカード距離」について説明。集合間の「異なり」(=非類似度)を評価する尺度で、「2つの集合がどれだけ異なっているか」を測定するために使用される。集合間の「重なり」(=類似性)を測定するジャッカード類似度と対になる概念。値は0〜1で、1に近いほど「異なっている(=似ていない)」を意味する。
AI・機械学習の用語辞典:
用語「オーバーラップ係数」について説明。集合間の類似性を評価する尺度で、「2つの集合の共通部分が、いずれかの集合のうち小さい方の集合の大きさと比べて、どれだけ大きいか」を測定するために使用される。値が1に近いほど「似ている」を、0に近いほど「似ていない」を意味する。部分的な一致が重要視される場面で利用されている。
AI・機械学習の用語辞典:
用語「ダイス係数」について説明。集合間の類似性を評価する尺度で、「2つの集合の共通部分が、それぞれの集合の大きさと比べて、どれだけ大きいか」を測定するために使用される。値が1に近いほど「似ている」を、0に近いほど「似ていない」を意味する。少数の一致でもその正確性が重要視される場面で利用されている。
AI・機械学習の用語辞典:
用語「ジャッカード類似度」について説明。集合間の類似性を評価する尺度で、「2つの集合がどれだけ重なり合っているか」(=全体の要素数に対する共通部分の割合)を測定するために使用される。値が1に近いほど「似ている」を、0に近いほど「似ていない」を意味する。主にクラスタリングや文書比較などで利用されている。
機械学習入門:
「知識ゼロから学べる」をモットーにした機械学習入門連載の第3回。数値予測に使われる「線形回帰」は、最も基本的な機械学習のアルゴリズムです。その概要と仕組みを図解で学び、Pythonとscikit-learnライブラリを使った実装と実践も体験します。初心者でも安心して取り組める易しい内容です。
Deep Insider's Eye 一色&かわさきの編集後記:
一色からは「ONEXPLAYER X1 AMD版で楽しむChatGPT×プログラミング」という題でX1を数週間使って気付いた問題と、その解決のために始めたChatGPTを駆使したプログラミングについて、かわさきからは「何をもってPythonicなのか(refrain)」という題でforループとif文を使って書いたコードとリスト内包表記で書いたコードのどちらが「初心者にとって分かりやすいか」「Pythonicなのか」について書きました。
AI・機械学習の用語辞典:
用語「レーベンシュタイン距離」について説明。2つの系列(文字列やDNA配列など)を比較して、一方から他方へ変換するのに最も少ない編集操作(挿入/削除/置換)の回数をカウントすることで、2系列間の距離を計測する方法。文章の編集作業量の計測、スペルチェック、データクリーニング、DNA配列の比較などに利用され、データ間の違いや類似度を評価できる。
AI・機械学習の用語辞典:
用語「ハミング距離」について説明。同じ長さの2つの系列(文字列やビット列)を比較して、異なる位置の数をカウントすることで、2系列間の距離(または類似度)を計測する方法。エラーチェックやデータ比較、クラスタリングに利用され、データ間の違いや類似度を直感的に評価できる。
AI・機械学習の用語辞典:
用語「マハラノビス距離」について説明。2点間の距離を計測する方法の一つで、「“普通の距離”(=ユークリッド距離)を一般化したもの」とも言われる。データの分布(共分散行列)を考慮することで、データのばらつき具合や相関関係を反映した距離を計算できる。異常値や外れ値を識別するために有効であり、特に多次元データにおいて正確な距離測定が可能。
@IT/Deep Insiderの歩き方:
データ分析、AI/機械学習の実装、生成AIの活用(まとめてデータサイエンス)は、もはや多くの人に必要な知識となっています。これらの基礎はどうやって学べばよいのでしょうか? オススメの勉強方法を紹介します。
AI・機械学習の用語辞典:
用語「ミンコフスキー距離」について説明。2点間の距離を計測する方法の一つで、マンハッタン距離(L1ノルム)やユークリッド距離(L2ノルム)、チェビシェフ距離(L∞ノルム)などを一般化したもの。パラメーター「p」の値を調整することで柔軟に距離を表現できる。
TensorFlow 2+Keras(tf.keras)入門:
TensorFlow+Kerasの最新情報として、Keras 3.0のリリースに伴い、TensorFlowから独立し、TensorFlow 2.16以降でKeras 3がデフォルトとなったことについて紹介します。また、Keras 3(TensorFlowバックエンド)での書き方や、今後のディープラーニングライブラリの選び方についても私見を示します。
AI・機械学習の用語辞典:
用語「チェビシェフ距離」について説明。2点間の距離を計測する方法の一つで、2つの点座標(n次元)で「次元ごとの距離(=各成分の差)の絶対値」のうち「最大値」を距離として採用する計算方法を意味する。
Deep Insider's Eye 一色&かわさきの編集後記:
かわさきからは「どうする? どうなる? 解決!Python」というタイトルでPython TIPS連載の今後についてChatGPTに聞いてみて思ったことについて、一色からは「何をもってPythonicなのか」というタイトルで執筆中に感じていた“Pythonic”という説明に対する戸惑いを解消するまでの体験談について書きました。
人気連載まとめ読み! @IT eBook(117):
人気過去連載を電子書籍化して無料ダウンロード提供する@IT eBookシリーズ。第117弾は、連載『やさしいデータ分析』の全編を電子書籍化しました。表計算ソフトで試しながら、基本的なデータ分析を学べます。前提知識は不要で、全ての社会人にお薦め。ここからデータ分析の第一歩を踏み出しましょう!
AI・機械学習の用語辞典:
用語「BM25」について説明。各文書中の各単語の重要性をバランスよく評価する尺度で、主に検索クエリに最も一致する文書を特定するのに用いられる。キーワード検索以外にも、類似文書の検索やレコメンデーションにも活用できる。計算式は「(ある単語の文書間でのレア度)×(ある文書における、ある単語の出現頻度、の正規化された値)」で、正規化するための調整パラメーターを持つ、tf-idfの発展版と見なせる。
機械学習入門:
「知識ゼロから学べる」をモットーにした機械学習入門連載の第2回。実践で役立つ、Pythonライブラリの基本的な使用例として、データの読み込みと加工(pandas使用)から、数値計算(NumPy使用)とデータ可視化(Matplotlib/seaborn使用)、機械学習(scikit-learnの使い方)までを体験しながら学ぼう。
AI・機械学習の用語辞典:
生成AI時代を生きる社会人に必須の基礎知識を身に付けよう。生成AIに関する用語として「生成系AI」「大規模言語モデル(LLM)」「プロンプトエンジニアリング」「ハルシネーション」「埋め込み表現」「ベクトル検索」「ベクトルデータベース」「RAG(検索拡張生成)」「事前学習」「ファインチューニング」の10語を紹介する。代表的なチャットAIやLLM、画像生成AIについても触れる。
AI・機械学習の用語辞典:
用語「RAG」について説明。ChatGPTなどのチャットAIに独自の情報源を付与する仕組みのことで、具体的には言語モデルによるテキスト生成に特定の情報源(ナレッジベース)の検索を組み合わせること。これには、生成内容の正確さを向上させるメリットがある。
AI・機械学習の用語辞典:
用語「グラウンディング」について説明。特定の知識や情報源(ナレッジベースなど)に基づいて言語モデルの生成内容を裏付けるプロセスのことで、チャットAIに独自の情報源を付与するRAG(検索拡張生成)という仕組みがその代表例。チャットAIがもっともらしいウソを答える問題(=ハルシネーション)を減らせるといったメリットがある。
AI・機械学習の用語辞典:
ベクトルデータベースとは、テキストなどのデータを数値ベクトル(埋め込み)として保存するデータベースを指す。「ベクトルストア」とも呼ばれる。ベクトル検索により、意味的に類似する情報を探せるのが特徴で、チャットAIのRAG構築に役立つ。本稿ではベクトル検索の機能を持つ代表的な製品の概要もそれぞれ簡単に紹介する。
AI・機械学習の用語辞典:
全てまたはほとんどの成分が0以外の数値を持つベクトルを「密ベクトル」と呼び、その代表例にはテキストなどのEmbedding(埋め込み表現)がある。また、大部分の成分が0で、一部のみが0以外の数値を持つベクトルを「疎ベクトル」と呼び、その代表例にはテキスト文書のtf-idf値がある。
機械学習入門:
「知識ゼロから学べる」をモットーにした機械学習入門連載の第1回。ルールベースと機械学習ベースの違いから、教師あり学習などの学習方法、回帰/分類などのタスクまで基礎の基礎から説明。機械学習のためのPythonライブラリも概説する。
AI・機械学習の用語辞典:
用語「ベクトル検索」について説明。テキストなどのデータを数値ベクトル(埋め込み)として表現し、それらのベクトル間の類似度を計算することで、関連する情報を見つけ出す検索方法を指す。Azure OpenAI Serviceの独自データ追加機能で利用可能な「キーワード検索」「ベクトル検索」「ハイブリッド検索」「セマンティック検索」という検索手法の違いについても言及する。
Deep Insider's Eye 一色&かわさきの編集後記:
一色からは「ChatGPTで株取引スクリプトを作ってバックテスト」という題でChatGPTを使って株取引ストラテジーを生成してシミュレーションしたことについて、かわさきからは「たんぱく質取ってますか?」という題でカロリーを考慮して鳥貴族のメニュー選びをアシストしてくれるGPTsを作成してみたことについて書きました。
AI・機械学習の用語辞典:
用語「Embedding(埋め込み)」について説明。単語やテキスト、画像を、AI/言語モデルが扱いやすい数値ベクトル(例:[0.4, -0.1, 0.2, ...])に変換する技術のこと。Word Embedding(単語の埋め込み)では、意味的に近い単語同士がベクトル空間上で近接するように変換される。
AI・機械学習の業界動向:
昨年2023年は、ChatGPTやGoogle BardなどのチャットAIに注目が集まり、企業やサービスに生成AIが導入されていくなど、大きな変化が一気に起こりました。今年2024年の「AI/機械学習/データ分析/データサイエンス」かいわいはどう変わっていくのか? 現状を踏まえつつ、未来を予測します。
AI・機械学習の用語辞典:
用語「移動平均」について説明。時系列データ(例: 株価)を平滑化すること、具体的には一定期間(例:5日間)の平均値を計算することをデータポイントごとに繰り返し、計算後の一連の平均値を線でつなぐこと(移動平均線)。データの長期的な傾向や短期的な動きを把握するのに役立つ。
AI・データサイエンス超入門:
ChatGPTの「高度データ分析」機能がデータサイエンスを変える? 素人でも簡単にデータ分析ができるようになるのか? 筆者が実際に挑戦し、実体験に基づく感想と洞察をお届けします。連載の流れとは関係がない番外編です。
AI・機械学習の用語辞典:
用語「トリム平均」について説明。昇順または降順に並べたデータの上位と下位から一定の個数または割合で値を除外(トリム)し、残ったデータで平均を求めること。特に外れ値を含むデータセットで統計的にデータを解釈する際に役立つ。
AI・機械学習の用語辞典:
用語「Average」と「Mean」の違いについて説明。両方とも「平均」と訳されるが、「Average」が日常的な会話や文脈の中でよく使われる一般的な用語であるのに対し、「Mean」は数学/統計学/機械学習といった専門的な文脈の中でよく使われる専門的な用語であるという違いがある。
AI・機械学習の用語辞典:
用語「調和平均」について説明。データの各数値の逆数で平均を取り、さらにそれを逆数にして戻した値を表す。計算式にすると、データ数を「データの各数値の逆数」の総和で割る形になる。速度/レート(率)のデータ(=逆数の形で加算される加法的なデータ)を平均する場合に適した平均の計算方法だ。
AI・データサイエンス超入門:
生成系AIの導入が急速に広がる今、その有用性や活用法が気になる方へ。一例としてプログラミング不要で、“会議の議事録を基に質問に答えてくれる「独自のチャットAI」”の作成を試みます。社会人の目線で、実践的な生成系AIの雰囲気をつかみましょう!
AI・機械学習の用語辞典:
用語「幾何平均」について説明。幾何平均はデータの各数値を掛け合わせた積のn乗根(nはデータ数)を取った値を表す。時間に応じて変化する変化率/比率/倍率のデータ(=乗算後に累積される乗法的なデータ)を平均する場合に適した平均の計算方法だ。
Deep Insider's Eye 一色&かわさきの編集後記:
かわさきからは「人は流れに乗ればいい」(シャア・アズナブル)やダイエット進捗について、一色からは「連載企画の状況や思ったこと」について書きました。
AI・機械学習の用語辞典:
用語「加重平均」について説明。算術平均がデータの合計値をデータ数で割った値なのに対し、加重平均は重み付けしたデータの合計値を全ての重みの合計値で割った値を表す。各データが異なる重要度を持つ場合に適した平均の計算方法だ。
AI・機械学習の用語辞典:
用語「プロンプトエンジニアリング」について説明。チャットAI(大規模言語モデル)や画像生成AIなどの生成系AIで、より望ましい返答テキストや画像などが生成されるように、ユーザーがAIモデルに入力する質問や指示のプロンプト(=テキスト)を工夫することを指す。
AI・データサイエンス超入門:
生成系AIが注目を集める中、従来の画像認識や音声認識のAIも依然として非常に有用です。この記事では、誰でも手軽にできる疑似体験を通じて、会議時の音声を文字起こしをする「議事録AI」の作成を試みます。一緒にAIの世界へ一歩踏み出しましょう!
AI・機械学習の用語辞典:
用語「思考の連鎖プロンプティング」について説明。問題を解くまでの一連の手順をプロンプトに含めるテクニックを指す。人間の思考プロセスでは、算術などの問題を途中の手順(計算過程)に分解して段階的に解いていくことが一般的だが、それを模倣した、プロンプティングのテクニック。
AI・機械学習の用語辞典:
用語「フューショット学習」について説明。ChatGPTなどの言語モデルが少数の例文から効率的に学習し、多様なタスクを解決できることを指す。大量データが必要な一般的な機械学習や既存モデルの再学習(ファインチューニング)と比べ手軽。また、コンピュータビジョンなど他の機械学習分野でも、少量データから学習する同じ用語が使用されている。
Deep Insider's Eye 一色&かわさきの編集後記:
一色からは「執筆者のためのChatGPTの使い方」と「Code Interpreterに見るデータ分析の近未来」について、かわさきからは『ChatGPTの頭の中』(ハヤカワ新書)というお勧め本の概要紹介を書きました。
AI・機械学習の用語辞典:
用語「ゼロショット学習」について説明。訓練データに存在しない新しいクラスやタスクに対しても有用な予測/分類を行うための学習方法のことで、特にChatGPTの言語モデルなどでは、ファインチューニングすることなく、かつ例文もない状態で、さまざまなタスクを解決する能力を持つことを指す。
AI・データサイエンス超入門:
データ分析とは具体的にどのようなことをするのか? 全くイメージが湧かない人、自分ではやってみたことがない人に向けて、気軽な疑似体験を通してデータ分析の雰囲気をお伝えします。具体的には、データを整理/変換し、グラフを作成して統計量も計算。さらにデータから次の数値を予測してみます。
AI・機械学習の用語辞典:
用語「創発」について説明。大規模言語モデルの計算量やパラメーター数が非常に大きくなると、“あるところ”を境に、突然、新しい能力を獲得して性能が大きく向上する現象を指す。