データサイエンティストのひよこ

分析に関する日々の相談事項

データサイエンスに関連する資格

データサイエンティスト協会のデータサイエンスの資格に注目したい。

↓データサイエンティスト検定™ リテラシーレベル
www.datascientist.or.jp

データサイエンティスト協会から出た話題としては個人的に興味を持ったのと、私が資格が好きでちょうどよいので、DS関連の資格についてみていきたい。

続きを読む

投資のリターンと効果測定2:内部収益率法

投資のパフォーマンス測定に因果推論的な視点を見出し、ちょっと仕事にしている。見出しただけで、本当に関連付けられるかについてはよくわからない。あくまで因果推論でよくやる方法のように、ある投資(介入)の効果を測定するために、マクロトレンドをさっぴいて本当の投資家の手腕を図るという点に注目していく。これの測定を目指した方法が、いくつかあるので簡単に紹介していく。

まず、リターンを簡単に紹介した。リターンは、投資開始年の投入金と、投資終了年の分配金の比としたが、実際の投資での資金流出入は、複雑であることが多いため、リターンの計算方法も、実際は複雑である。

続きを読む

投資のリターンと効果測定1:投資のリターン

 私はデータサイエンティストというより数理専門職として社内では認識されてしまったので、仕事ではクオンツのような金融の分析を行うこともある。おそらく、JTCの大きな企業に勤めていると、必ずしもデータサイエンスではない仕事でも、社内の部署の垣根を越えて相談を受けることがあるだろう。実際のところ、データサイエンティストの仕事に濃い技術力を期待すると、コンサル色が強くてまいってしまうことが多いので良い機会だと思って、一応関わっている。

続きを読む

形式手法言語Alloyを使ってSAT問題を解く

ナレッジグラフ推論チャレンジで、形式手法言語であるAlloyが評価されたので簡単に紹介をしたいと思う。
http://alloytools.org/

 ナレッジグラフ推論チャレンジとは、解釈可能AIの基礎技術を探索する目的で2018年に開催されたコンテストだ。ちなみに、第2回が今度開かれる。シャーロックホームズの「まだらの紐」という短編小説を題材にして、ホームズが推理する場面までのデータを利用し、「犯人をあてること」と「犯人である根拠を示すこと」を数理技術で行うことが求められる。
http://challenge.knowledge-graph.jp/

 話がずれてしまうが、解釈可能性AIとか説明的AIとかは、昨今ニュースでちょこちょこ現れてきている言葉である。聞いたことがある人も多いと思う。人工知能の判断や結果の根拠をうまく提示できずブラックボックスになりがちなため、重要な判断での利用が躊躇されてしまうことが大きな業界の課題となってしまっている。そこを解決することが求められているのである、特に、今回のAIブームの継続には、この解釈可能性という課題がひとつのハードルになっていて、ここが解決しなければ飽和も近いのではないかとさえ言われている。

 さて、話を元に戻して、コンテストでのAIの推理技術のなかで、SAT問題とAlloyという2つの面白いおもちゃ(?)が評価されたので、ぜひ紹介したい。

続きを読む

データサイエンスの組織作り1(自社データ編)

 2013年くらいはデータ分析ベンダーが、データサイエンティストを大量に囲い込んでいた。しかし、最近では事業会社に転職していくデータサイエンティストも非常に多くなっている。他社のデータを扱うことは、データの前処理以前のデータベースの理解から始まり、当初のスケジュール通りになかなか行かない分析プロジェクトになりがちである。それに加えて、期待値コントロールなどのマイクロマネジメントばかりが要求されることも多い。腰を落ち着けて、一つのデータに集中して分析したいという流れに加えて、製造業をはじめ多くの事業会社がDSを内製化する方針が重なり、転職が旺盛になった。
 DSの多くが事業会社に転職したものの、職場とのミスマッチが多発している。DSあるあるである。データサイエンティストの組織づくりや採用にも関わってきたので、ケースを少し振り返りたいと思う。まず、この記事にとって、身も蓋もないことだが、ここを含む社外の情報に定義を丸投げせず、自社の業務に即したデータサイエンスの目的と意義を自社で持つことだ。
www.hottolink.co.jp
数年前にも榊氏が述べている。

  • データサイエンス組織の目的設定
  • データサイエンス組織の立ち上げ事例
  • 自社データの分析をするための準備
  • 人材の探し方
  • データ分析環境づくり
  • 施策提案と効果測定
  • おわりに
続きを読む

データサイエンティストのモノ作り

半年ぶりくらいにデータサイエンティストの仕事について書きたいと思う。大学で数年データサイエンスに関わってきて、ここ1年ほど、企業に籍を移した。私がtwitterで日々つぶやいていることをまとめたようなものだから、あまり新しさは感じられないかもしれない。

まず、少し前にデータサイエンティストは数理専門職なのではないかと書いたら、同意してくれる人が多かったようだ。

続きを読む

ネットワークとは

 ネットワーク解析に興味を持ったか、必要になって調べてきたかのどちらかだろうと思う。興味をもってくれたことはうれしいし、ネットワーク解析が必要になるような分析が実務の技術者の間にも広まってきたこともうれしい。
 ネットワーク解析は、関係性データ解析、グラフアルゴリズム、圏論などと名前を変えて、さまざまな分野で研究されている。もちろん、分野によって対象とすることは異なるが、必要に応じて横断的に学ぶ必要も出てくるので、明確な線引きはないと思う。これから説明するネットワーク解析は、すこし情報科学や物理学的な側面をもとにまとめられている。主にネットワークやグラフ(ネットワークと同じもの)を対象とした分野は次のようなものがある。

関係性データ解析は、テンソル解析などの重厚な線形代数の計算や数値計算をこなさなければいけないものが多い。グラフアルゴリズムは、データ構造などをもとに経路探索や木の構成など、ネットワーク特有の構造の複雑性で生まれる厄介な方法を単純化したり、速くしたりする方法を扱う。グラフ理論や圏論は幾何的構造をもとに分類したり、問題の可能性を議論する。理論の側面では整っているが、実務で使うのはなかなか難しい。
 ネットワーク解析は、教師なし学習として使われることがほとんどで、その他の機械学習の手法のように分析の主役となることが少ない。つまり、使いこなせたうえで、データを理解していないと結果が解釈できないのである。ただ、予測モデルに組み込む変数を作成したり、データの順位付けを行うことはできるので、使い方には慣れが必要かもしれない。使いどころがうまく判断できないと、何のためにあるかわからないといった感想をもってしまうだけの領域だが、ここを専門とする分析屋さんは、グラフアルゴリズムや行列計算などの重厚な分野を使いこなせる指標ともなるので、ぜひとも挑戦してほしいと思う。
 さてそんな、ネットワーク解析について、余力のあるときに書き進めていきたいと思う。

続きを読む