並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 12 件 / 12件

新着順 人気順

evalの検索結果1 - 12 件 / 12件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

evalに関するエントリは12件あります。 AI人工知能プログラミング などが関連タグです。 人気エントリには 『ChatGPT API にコードを書かせて eval する際のエラーハンドリング・プラクティス』などがあります。
  • ChatGPT API にコードを書かせて eval する際のエラーハンドリング・プラクティス

    最近 ChatGPT API にコードを書かせてそれを eval するという仕組みを作りました。 その際に考えたエラーハンドリングのプラクティスが、ChatGPT API ならではで個人的に面白かったので記事に残しておきます。 📝 tl;dr ChatGPT はコードを書くことを拒否する場合がある。考慮したリトライの仕組みを作る ChatGPT の書いたコードで発生したエラーは ChatGPT に解決してもらう 💬 何をやろうとした? 以前の記事にて Minecraft 上で ChatGPT に作りたいものを伝えると魔法みたいに実現してくれるコマンドというものを紹介しました。 豪華(?)な家を作ってもらう例 このコマンドの実装はとてもシンプルで、ユーザーの指示(prompt)から ChatGPT API にコードを書かせて、それを eval しているだけです。 def think_co

      ChatGPT API にコードを書かせて eval する際のエラーハンドリング・プラクティス
    • 評価駆動開発(Eval-driven development):LLMアプリケーション開発における課題とアプローチ - LayerX エンジニアブログ

      この記事は、LayerX Tech Advent Calendar 2024 の 12日目の記事です。 tech.layerx.co.jp こんにちは、LayerXのAI・LLM事業部プロダクトマネージャーの野畑(@isseinohata)です。 AI・LLM事業部では生成AIプラットフォーム「Ai Workforce」を開発しています。 getaiworkforce.com LLMを用いたアプリケーション開発には独自の特徴や課題が存在しており、Ai Workforceの開発チームも、日々様々なチャレンジに向き合っています。今回は、その中でも特にLLMの「出力の不確定さ」に起因する開発プロセスの課題を解決するための方法として、評価駆動開発というアプローチをご紹介します。 評価駆動開発を紹介する前に、LLMをアプリケーションに組み込む上での特徴や課題について、簡単にまとめてみます。 LLMを

        評価駆動開発(Eval-driven development):LLMアプリケーション開発における課題とアプローチ - LayerX エンジニアブログ
      • RedisでEVALを使うとこんなにお得!GunosyでのEVAL活用例 - Gunosy Tech Blog

        この記事はGunosy Advent Calendar 202013日目の記事です。昨日は大曽根さんの不確実性と向き合うデータ分析でした。 Gunosyでネットワーク広告系のプロダクトを扱っているeastです。今回はRedisでEVALを使うことの優位性を、具体的な事例を交えて紹介できればと思います。 RedisのEVALとは? どんな時に使うのか 実際にはEVALではなくEVALSHAを使う 何故EVALを使うのか? 具体的な活用例 例1: 複数のRedisコマンドをまとめる 例2: 複数key指定に対応してないコマンドを複数keyに対応させる 例3: 書き込みの重複排除 まとめ RedisのEVALとは? RedisのEVALとは、Redisで独自のLua scriptを実行させることができる機能です。ざっくり言うと、自作のRedisコマンドを作成するような感じですね。 EVAL どん

          RedisでEVALを使うとこんなにお得!GunosyでのEVAL活用例 - Gunosy Tech Blog
        • 【LLMOps】LLMの実験管理にTruLens-Evalを使ってみた | フューチャー技術ブログ

          はじめにこんにちは、SAIG/MLOpsチームでインターンをしている吉田です。 LLMの実験管理ツール候補として、TruLens-Evalを検証しました。合わせて、LLMの実験管理についてまとめてみました。 背景と目的LLMOpsとは近年、大規模言語モデル(LLM)の性能が飛躍的に向上し、その高度な自然言語処理能力によって様々な領域での課題解決が期待されています。LLMは文章生成、翻訳、要約、質問応答など多岐にわたるタスクにおいて驚異的な成果を示しており、その応用範囲はますます広がっています。 LLMOpsは、LLMを組み込んだアプリケーション開発・運用の効率化を目指すプラクティスです。アプリケーションの種類や開発規模などによってLLMOpsのワークフローは大きく変わりますが、いずれの場合もLLMの性能評価や挙動の解析のために度重なる実験が必要となります。開発過程で行われる実験を適切に管理

            【LLMOps】LLMの実験管理にTruLens-Evalを使ってみた | フューチャー技術ブログ
          • Pythonの`eval()`および`exec()`関数: 動的なコード実行の可能性 - Python転職初心者向けエンジニアリングブログ

            Pythonのeval()およびexec()関数: 動的なコード実行の可能性 Pythonには動的なコードの実行を可能にする2つの重要な関数があります。それがeval()およびexec()関数です。この記事では、これらの関数について詳しく説明し、具体的なコード例を交えてその使い方を解説します。 eval()関数 基本的な使い方 eval()関数は、Pythonの式を文字列として受け取り、その結果を返します。基本的な構文は以下の通りです。 eval(expression, globals=None, locals=None) expression: 評価するPythonの式を表す文字列。 globals: グローバルな名前空間を指定する辞書。デフォルトはNone。 locals: ローカルな名前空間を指定する辞書。デフォルトはNone。 以下は基本的な例です。 result = eval('

              Pythonの`eval()`および`exec()`関数: 動的なコード実行の可能性 - Python転職初心者向けエンジニアリングブログ
            • GitHub - paulmooreparks/ClifferBasic: ClifferBasic is a sample program for the Cliffer CLI library that implements a very simple BASIC interpreter environment as a REPL (Read-Eval-Print Loop). This project demonstrates the usage of the Cliffer CLI library

              You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                GitHub - paulmooreparks/ClifferBasic: ClifferBasic is a sample program for the Cliffer CLI library that implements a very simple BASIC interpreter environment as a REPL (Read-Eval-Print Loop). This project demonstrates the usage of the Cliffer CLI library
              • llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて

                ICHIKARA-INSTRUCTION LLMのための日本語インストラクションの構築と 人間とGPT-4による評価で観察されたもの

                  llm-jp-eval 日本語大規模言語モデルの 自動評価ツールの開発に向けて
                • GitHub - tc39/proposal-defer-import-eval: A proposal for introducing a way to defer evaluate of a module

                  You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                    GitHub - tc39/proposal-defer-import-eval: A proposal for introducing a way to defer evaluate of a module
                  • llm-jp-eval リーダーボード

                    このリーダーボードは、llm-jpで検証している結果である (v1.0.0). Made by Kei Kamata using Weights & Biases

                      llm-jp-eval リーダーボード
                    • GitHub - llm-jp/llm-jp-eval

                      You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                        GitHub - llm-jp/llm-jp-eval
                      • Auto-Eval of Question-Answering Tasks

                        By Lance Martin Context LLM ops platforms, such as LangChain, make it easy to assemble LLM components (e.g., models, document retrievers, data loaders) into chains. Question-Answering is one of the most popular applications of these chains. But it is often not always obvious to determine what parameters (e.g., chunk size) or components (e.g., model choice, VectorDB) yield the best QA performance.

                          Auto-Eval of Question-Answering Tasks
                        • eval_gemfile

                          ちょっとしたコード変更を紹介するシリーズ。 - instance_eval( - File.read('Gemfile') - ) + eval_gemfile('Gemfile') Gemfileから別のGemfileを評価したいときに使えるメソッドとして、eval_gemfile (Bundler::Dsl#eval_gemfile) があったことを、他人のコードを読んでいて思い出した。結果的に、上記のように書き換えた。やっていることは大体同じだけど、異常系の考慮や相対パスの取り扱いなど細かなことをやってくれるし、DSLに入りてはDSLに従うべきだろうという考えの元で。 こういうきもい処理は、複数のGemfileを運用するとき場合などに出てくる。例えば、アプリケーションでRails 6と7との過渡期で並行運用するときや、ライブラリで複数のバージョンのGemをテストするときなど。

                          1

                          新着記事