CCCMKホールディングス TECH LABの Tech Blog

TECH LABのエンジニアが技術情報を発信しています

ブログタイトル

相関係数を正しく使用する

こんにちは。 テックラボの岸部です。 本日はデータ分析で身近である相関係数の実装について色々調べた内容を共有したいと思います。 はじめに ~これは架空の話です~ ある企業にデータサイエンティストがいました。 とあるアンケートデータを分析していま…

Azure App Service(Container Linux環境)のPythonアプリにDatadogを仕込む

テックラボの高橋です。今回は小ネタです。 Azure App ServiceのContainer Linux環境ではDockerコンテナを動かすことができます。 最近、オブザーバビリティツールであるDatadogをこの環境に組み込む機会がありました。 Datadogのドキュメントによると、以下…

長いドキュメントをLLMに参照させる"Chain of Agents"というアプローチについて論文を読みました。

こんにちは、CCCMKホールディングスTECH LAB三浦です。 はじめに もうすぐ2月も終わりです。今期もあと残すところ1か月なので、来期に取り組みたい研究テーマを探すため、最近は色々な論文に目を通しています。今回も最近読んで面白いと感じた論文の内容を紹…

SentenceTransformerを用いて文字の意味を加味した特徴量を作成し、有用性を検証しました。

こんにちは。データサイエンスグループの木下です。 今回は、SentenceTransformerを用いて作成した特徴量の有用性を検証したという内容になります。 背景 テーブルデータを用いて機械学習モデルを作成する際、カラム名自体や値の文字通りの意味を加味するこ…

"DeepRAG: Thinking to Retrieval Step by Step for Large Language Models"という論文を読みました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 最近日本の歴史の漫画を読んでいました。子どもの頃は近代~現代の内容は難しい、と感じていたのですが、大人になってから改めて見ると学ぶことがとても多く、考えさせられることがたくさんあるんだ…

"The Surprising Effectiveness of Test-Time Training for Abstract Reasoning"という論文を読みました。

こんにちは、CCCMKホールディングスTECH LABの三浦です。 いつの間にか2月も中旬になりました。2月3月はあっという間に過ぎていく印象があります。きっと気が付いたら4月になっているんだろうな、と思います。 "Test-Time" 論文について Test-Time Training?…

特徴量のスパース性と特徴量重要度の関係性について調査しました。

こんにちは。データサイエンスグループの木下です。 今回は、スパースなカラムを含むデータにおける、二値分類モデルを作る際のモデルの性能に関して実験してみました。 背景 マーケティングの世界では、施策の効果を評価するために、 性別や年代などのデモ…

RAGの手法"RAPTOR"のドキュメントの木構造化を試してみました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 歳を重ねていくと、なんとなく一年の中でのこの時期は特に体調を崩しやすいな、ということが分かってきます。私にとっては今の時期がちょうどその時期で、今年もやっぱり風邪を引いてしまいました。…

Cross-Domain Recommendationの調査論文を読んでみました。

こんにちは、データサイエンスグループの木下です。 今回は、RecSys2024でもセクションの一つとして取り上げられていた、 Cross-Domain Recommendation(CDR)について調査した Cross-Domain Recommendation: Challenges, Progress, and Prospectsという論文(…

LLMの性能を測る指標をベンチマーク結果から取得する方法について、論文を読みました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 昨年参加したAI・機械学習カンファレンス"NeurIPS2024"のポスターセッションで発表されていた論文の中で、面白いアプローチだな、と印象に残っている論文がいくつかあります。 そのうちの1つがこち…

Contrastive Activation Addition(CAA)の振る舞いのベクトルを抽出して可視化してみる。

対象にした振る舞い 使用したデータセット 対象にするLLM モデルのどこに注目するのか 可視化方法 PyTorchで中間表現を取得する方法 実行コードの一部の紹介 いくつかの散布図を描画 なぜAとBで傾向が違うのか・・・ まとめ こんにちは、CCCMKホールディング…

Scikit-LLMでテキスト分類しました

あけましておめでとうございます。 データサイエンスグループの木下です。 今回は、Scikit-LLMというライブラリを紹介いたします。 Scikit-LLMとは skllm.beastbyte.ai Scikit-LLMとは、LLMをScikit-Learnのように扱うことができるライブラリです。 Scikit-L…

Azure OpenAIによるコードレビューを試してみました

こんにちは、AIエンジニアリンググループの矢澤です。 最近テストの採点や添削指導について考える機会がありました。 選択式の問題や数学の定理のような答えが一つに決まっている問題はともかく、自由記述形式の問題などでは正確な採点が難しいこともあるの…

LLMの振る舞いを調整するContrastive Activation Addition(CAA)について、論文を読んで手法を調べてみました。

こんにちは、CCCMKホールディングス TECH LABの三浦です。 成人式の休日も終わり、そろそろ2025年も本格スタート、という気持ちになってきました。今年は"整理整頓"をもっとうまく出来るようになりたいな・・・と考えています。身の回りもそうですが、自分の…