サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
今年の「#文学」
tjo.hatenablog.com
X (Twitter)を眺めていたら、面白そうな論文が流れてきました。それがこちらです。 実際に流れてきたのはこちらの紹介記事なんですが、その要約を読んだ限りでもなかなかに興味深い現象であるように思われます。 ということで、何番煎じかもはや分かりませんがこのブログでも備忘録的に取り上げてみようと思います。が、ただそれだけでは面白くないので、この論文を読んで僕が個人的に考えた「現実のヒトの脳との関連性」についても論じてみることにします。 論文の概要 LLMの"Super Weights"の役割 "Super Weights"はデータ入力をせずとも特定できる "Super Weights"がLLMの量子化に果たす意義 現実のヒトの脳との比較 マクロに見れば「似ている」 知覚・認知機能に絞って見れば「異なる」 コメントなど 論文の概要 基本的には冒頭にリンクしたまとめ記事でも紹介されている通りで
最近某所で話題になっていたのが「欠損値処理はどうやるべきか」というテーマ。これは太古の昔から「荒れるテーマ」として有名で、今回も大いに荒れていて傍観している側としては面白かったんですが(笑)、古老ともあろう身がただ面白がっているだけでは自分を含めて誰の学びにもならないので、良い機会ということでちょっと欠損値処理に関する備忘録をまとめておこうと思います。いつもながらですが、誤解や理解不足の点などあればどしどしご指摘ください。 大前提 機械学習における欠損値処理は「予測」の助けになるように 統計学における欠損値処理は「パラメータ推定」の助けになるように 感想など 大前提 9年も前にこのブログで書いた記事が今でも時々各所で参照されているようなので引き合いに出しておきますが、そもそも論として機械学習が「予測」を目的とするのに対して統計学は「説明」を目的とすることが多い、という点を指摘しておきます。
先日のことですが、Querie.meでこんな質疑がありました。 これは非常にご尤もなご意見であり、実際この問題提起に近いシチュエーションを見かけたことは五本の指では数え切れないくらいあります。ということで、今回の記事では元々の問題意識ともいえる「見せかけの回帰」について、久しぶりにちょっと復習を兼ねて書いてみようと思います。 そもそも「見せかけの回帰」とは何か 実際に見せかけの回帰において起きること 見せかけの回帰への対処法 差分系列に変換する VARモデルを使う 動的線形(状態空間)モデルやベイズ構造時系列モデルを使う Rコード そもそも「見せかけの回帰」とは何か このブログでは11年前に沖本本の輪読記事を書いた際に「見せかけの回帰」については一通り取り上げていますので、今回はその際の説明を引用するに留めます。 なお前提知識として先に書いておくと、以下に出てくる「単位根過程」というのは平
先日こんなことを放言したら、思いの外結構伸びてしまったのでした。 「生成AIが博士号レベルの高度な課題解決や推論が出来る」ようになったら、その出力が正しいかどうかを判定できるのは同レベルの専門人材だけなので、そういう人材の需要が逆に高まる気がしている。それはプロの研究者が論文中で捏造や改竄をしても、プロの研究者でないと見破りづらいのと同じかと— TJO (@TJO_datasci) 2024年9月19日 ということで、今回も相変わらずネタ切れでブログに書くことがないので完全に与太記事ですが「生成AI(というかLLM)の推論がどんどん高度になることで逆にユーザーの側に高度なスキルが必要になる」とはどういうことかを、簡単なケーススタディと共に何となく書き綴ってみようと思います。 正解を知った上で生成AIに推論させるケース 正解がいまいち分からない中で生成AIに推論させるケース 生成AIの推論が
先日のことですが、こんなことを放言したら思いの外伸びてしまいました。 データ可視化は一時期物凄く流行った割に今はパッとしない印象があるんだけど、それは結局のところデータ可視化が「見る人に『考えさせる』仕組み」だからだと思う。現実の世の中では、大半の人々は自分の頭で考えたくなんかなくて、確実に当たる託宣が欲しいだけ。機械学習やAIが流行るのもそれが理由— TJO (@TJO_datasci) 2024年8月28日 これはデータサイエンス実務に長年関わる身としてはごくごく当たり前の事情を述べたに過ぎなかったつもりだったのですが、意外性をもって受け止めた人も多ければ、一方で「あるある」として受け止めた人も多かったようです。 基本的に、社会においてある技術が流行って定着するかどうかは「ユーザーから見て好ましいかどうか・便利であるかどうか」に依存すると思われます。その意味でいうと、データ分析技術にと
ベイズデータ解析(第3版) 森北出版Amazon 先日のことですが、『ベイズデータ解析』を訳者のお一人菅澤さんからご恵贈いただきました。もう一目見ただけで「鈍器」以外の語が出てこないくらいの立派な鈍器で(笑)、原著のBDA3*1に負けないくらいの鈍器っぷりが見事な一冊です。菅澤さんといえば名著『標準ベイズ統計学』の翻訳も手掛けておられますが、先日直にお話を伺った際は「本書の方が標準ベイズよりもさらに理論的な内容に踏み込んでしっかり書かれていて良い」とのコメントでした。 ということで、早速本書をレビューしていこうと思います。ただ、何分にも全体で888ページもある大著であり、ぶっちゃけ斜め読みするだけでも1ヶ月近くかかるという有様でしたので、内容の理解が不完全であったり誤ったりしている可能性があります。それらの不備を見つけられた際は、何なりとご指摘くだされば幸いです。 本書の概要 第I部 ベイ
先日のことですが、以下のニュースが統計的学習モデル界隈で話題になっていました。 肝心の箇所が会員限定コンテンツなので簡潔にまとめると、従来モデルよりも説明変数に入れる海域の数を増やした上で、Lasso(L1正則化)回帰で多重共線性を抑えつつ汎化性能を高めるというアプローチを取った、というお話です*1。これは回帰分析という基本に立ち返った、昨今の「猫も杓子も生成AI」という流れからは一線を画した試みで、いかにも玄人好みという感があるなと僕も感じた次第です。 一方で、僕が身を置く広告・マーケティング業界でもMMM (Media/Marketing Mix Models)を初めとして様々なタイプの回帰分析が広く行われていますが、個人的に見聞する範囲では冗談でなく本当にピンキリで、中には「そんなデタラメな回帰分析で本当に役員会の意思決定に使っているんですか???」みたいなケースも珍しくありません。
Bula!*1 コロナ禍もすっかり落ち着いてようやく元通り恒例化した我が家の(一足早い)夏休み海外旅行ですが、今年は夏至のフィジーに行ってきました。我々としては初めてのハワイ以外のポリネシア方面への旅になったのですが、事前の期待以上に素晴らしいところで大いに満喫してまいりました。 ということで、いつも通り旅行の記録を兼ねつつ「次回また訪れた時のための備忘録」としての旅行記を綴っておこうと思います。なお我が家は今回が初のフィジー訪問で、フィジーの常連というわけでもなく況してや語学留学や定住などで長期にわたって滞在していたりするわけでもありませんので、事実誤認などあればご指摘くだされば幸いです。 フィジーについて ホテル デナラウ島について フィジーのグルメ ナンディ周辺の観光地 サンベト泥温泉 スリ・シヴァ・スブラマニヤ・スワミ寺院 ナンディ・マーケット 旅をしていて気付いたこと・注意点など
近年のデータサイエンティスト界隈では、僕が以前スキル要件記事でも提唱した通りの「ソフトウェアエンジニアの延長としての機械学習エンジニア」(機械学習メイン)と「アナリストの延長としてのデータサイエンティスト」(統計学メイン)とにキャリアもポジションもカルチャーも分化するようになって久しい印象があるのですが、世の中に溢れる求人情報や各種SNSで流れてくる巷の声を見聞きする限りでは、どう見ても前者の方が数が多い上に需要も旺盛なんですよね。 発展というよりMLを使ったプロダクトでお金稼いでいる会社があって、統計学やエコノメベースでプロダクトを作る事業会社がないだけだと思います。統計学とか示唆出しの手段なので、ブラスでお金稼ぐ感覚がないと居場所がないだけかなと。 https://t.co/PCDQHiIvlJ— be (@behemuhemulove) 2024年6月11日 で、畏友*1beさんがこ
かなり前から「ChatGPTに学術論文を(英語で)書かせると"delve"のような普段使わないような単語が多く使われるのでバレやすい」という話がSNS以下各所で頻繁に噂されていたんですが*1、最近になってこの件について面白いpreprintが発表されていたのを知りました。それがこちらです。 もう読んで字の如しで「ChatGPTが登場して以来学術論文に使われる単語のレパートリーが劇的に変わってしまった」というのを、実際に具体的なデータに基づいて示した論文です。割と短めの読みやすい論文であることと、先述したようにSNSでは頻繁に噂されていた推測を明確化したということもあり、折角ですのでこのブログで簡単に紹介してみようと思います。 Preprintあげたのでご報告!📣 ChatGPTが使いがちな英単語ってありますよね。「delve」「realm」「utilize」あたり。 (限界助教先生の記事
すっかりおじさんになってしまった身としては近年の日本のミュージックシーンに極めて疎くなって久しいのですが、最近になってAdoさん*1の楽曲に『過学習』というタイトルのものがあるということを知ったのでした。 一体どこで「過学習」なんてマニアックなテクニカルタームが存在することを知って、あまつさえ楽曲のタイトルにしようと考えたのか、というのが不思議で仕方ないのですが、機械学習や統計学を初めとするデータサイエンス領域の人々ぐらいにしか馴染みのなかった語がこうして人口に膾炙しているのかと思うとなかなかに感慨深いものがあります。 ということで、「過学習」とはどういうものであり、どのような場面で生じ、それをどうすれば避けられるか、という点について簡単にまとめてみることにしました。このテーマでは過去に何度もブログ記事を書いており、もはや何周目の話題なんだという感もありますが、温故知新ということでご容赦い
因果推論: 基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ 作者:金本 拓オーム社Amazon 著者の金本さんからご指名でご恵贈いただいたのが、こちらの『因果推論 ―基礎から機械学習・時系列解析・因果探索を用いた意思決定のアプローチ―』です。正直に白状しますと、因果推論とタイトルにつく技術書はここ数年でゴマンと出版されており、本書も紙冊子で頂戴したものの僕はあまり期待せずにページをめくり始めたのでした(ごめんなさい)。 ところが、ほんの数ページめくっただけでその内容に僕は仰天しました。グラフィカルで実務家にとっての分かりやすさを重視した因果推論の解説と実践にとどまらず、現代的なマーケティング分析では必須の種々の手法についてまで懇切丁寧に解説とPythonによる実践例が付された本書は、文字通り「マーケティング分析実務家にとってのバイブル」になり得る素晴らしい一冊だと直感し
先日のことですが、Querie*1で以下のような質疑がありました。 恐らくですが、これは僕が懇意にさせていただいているマクリン謙一郎さんがコメントしていた件に関連する話題だと思われます。 たしかにこれではないからHARKingとはちょっと違うと思うんだけど、実際は「同じストーリーを別のデータで何度も解析」してるわけだから多重検定になる。被説明変数は一緒だから複数の説明変数を試して有意になったやつを報告するのと構造は一緒。 https://t.co/WjnK5MnKcJ— Ken McAlinn (@kenmcalinn) 2024年3月11日 分かる人が見れば「典型的な多重比較補正問題だ」と分かる話なんですが、普段から意識していないと意外と見落とされがちなポイントだと思うんですよね。ということで、最近ネタ切れなのを糊塗する目的も兼ねて今回の記事では簡単にこの話題を改めてサクッと深掘ってみよ
統計的因果推論と言えばすっかり統計学分野ではお馴染みのアプローチになった感があり、また機械学習分野でも扱うテーマが複雑化するにつれて注目が高まり続けているトピックスという印象があります。 このブログでも2016年ぐらいから因果推論に関する記事をちらほら書くようになり、僕個人にとってもまた因果推論と言えば馴染み深い概念になってきたという感があります。 一方で、ビジネス実務の現場においても「因果推論」という言葉は使われないにせよ、かなりはっきりと「因果」についての知見もしくは説明可能性が求められるようになってきた、という印象が個人的にはあります。それは良くも悪くもDXブームでありとあらゆるビジネスに関わる事由がデータ化され、「相関」だけなら簡単に見つけられるようになったことで、相関だけからは見えてこない「因果」をはっきりさせたいという願望が浮かび上がってきた、ということなのかもしれません。 そ
毎年四の五の言いながら書いている推薦書籍リスト記事ですが、何だかんだで今年も書くことにしました。なお昨年度版の記事を上にリンクしておきましたので、以前のバージョンを読まれたい方はそちらをお読みください。 今回のバージョンでは、趣向をちょっと変えて「定番」と「注目分野」というように分けました。何故こうしたかというと、平たく言って 「初級&中級向け」推薦書籍リストは定番化していて毎年あまり変更点がない 逆に直近のホットトピックスに関するテキストは毎年入れ替わりが激し過ぎて網羅しづらい という課題があり、特に2点目についてはあまりにもデータサイエンス関連書籍の新規刊行が多過ぎる&僕自身がその流れについていけておらず完全に浦島太郎状態ですので、万人向けに等しくウケるようなリストを作るのは今回をもって完全に諦めたというのが実態です。 その上で、前回まで踏襲されていた定番書籍リストはバルクで提示すると
最近の話ですが、以下のようなニュースが話題になっているのを見かけました。 データサイエンス系の学部は文理融合の学びを掲げ、文系の受験生も集めるため、受験科目に「数学」を含まない入試方式を設ける大学も少なくない。河合塾によると、私立大のデータサイエンス系学部・学科における昨春の一般選抜のうち、数学を選ばずに受験できる大学は約半数もあった。 要は「数学不要」のデータサイエンス学部が出てくるようになったというお話で、各種SNSでは論議を呼んでいるようです。界隈によってはほとんど「嘲笑」に近い評が流布していることもあり、少なくともデータサイエンス業界におけるこのニュースの受け止められ方としてはかなり冷ややかだという印象があります。 とは言え、冗談でも何でもなく「全国津々浦々どこに行っても大学の新設データサイエンス学部の広告を見かける」*1というのが既に常態化している昨今では、これに類する話題は今後
恒例の年末振り返り記事ですが、もうタイトルが示す通りです。例年通りであれば淡々と1年間の業界動向や個人的な学び、はたまたちょっとした私事などを綴るのですが、今年はたまたま良いお題がやってきたのでまず最初にその話を書こうと思います。 生成AIの爆発的な普及と、それに伴って生じた課題 AIやデータサイエンスの「外側」の本質にアプローチするのが、ヒトのなすべき仕事 最後に、改めて年末の振り返りを 生成AIの爆発的な普及と、それに伴って生じた課題 今年は多くの生成AIプロダクトが公開され普及し、それに伴い文字通り正真正銘空前の生成AIブームが到来し、個人や企業のみならず霞ヶ関までもが、そしてついには政府与党までもがこぞって「生成AIの活用」を模索して立ち回るという有様になりました。書店に行けば生成AI関連書籍が棚一面を埋め尽くすという大盛況で、毎日のようにどこそこの大企業が生成AIを導入した〇〇サ
今回の記事では、ちょっと感覚的でふわっとした話をしようと思います。それは「『仮説ドリブン』という考え方には往々にして落とし穴があるのではないか?」という問題提起です。 そもそも、「仮説ドリブン」(仮説駆動型:hypothesis-driven)というアプローチは実験科学分野出身の我が身にとっては、個人的には馴染み深いものです。まだ僕がポスドクだった頃、国際会議に際して日本人研究者同士で集まる会が毎回あったのですが、その席上でお話を聞く機会があった当時のトップ研究者の先生から「この世の森羅万象は網羅しようとするにはあまりにも広大過ぎる、故に森羅万象を区切って『仮説で白黒つけられる範囲』に絞り、これを検証するということを繰り返して前に進むべき」ということを聞かされ、感銘を受けたのを覚えています。 実際、仮説ドリブンの考え方は非常に有用なものであり、今現在僕自身が主戦場とする広告・マーケティング
CausalImpactについては、過去にこのブログでも何度か話題にしてきたかと思います。端的に言えば、seasonalityによるバイアスを補正するための実験計画であるDID(Difference in Differences:差分の差分法)によって得られたtest/controlグループの時系列データセットに対して、介入後期間において反実仮想(counterfactual)ベースラインを予測値として与えた上で、これと実測値との差を分析することで介入の因果効果を推定するというものです。以前このブログで取り上げた記事と、ill-identifiedさんの詳細な解説記事とを以下に挙げておきます。 実際の使い方については、このブログで取り組んだ事例の記事を以下に挙げておきます。これはコロナ禍における政府の人流抑制策が、現実としてどれくらいの効果があったかを検証しようとしたものです。 業界全体を
前回のブログ記事は、論文紹介という地味なテーマだったにしてはだいぶ話題を呼んだ*1ようで、個人的にはちょっと意外な感があったのでした。確かに、今をときめくTransformerにも苦手なものがあるという指摘は、NN一強の現代にあってはセンセーショナルなものと受け止められても不思議はなかったかと思います。 しかし、それは同時に「データセットが持つ本質的な性質」と「データ分析手法の性質」とのミスマッチと、それが引き起こす問題とについてこれまであまり関心を持ってこなかった人が多いということなのかもしれません。そして、そのミスマッチは冗談でなく古来からある程度定まった類型があり、データ分析業界の古参なら「そんなの常識だよ」というものばかりだったりします。 ところが、最近僕の周囲でもそういうミスマッチが深刻な実問題を招いているケースが散見され、思ったよりもそれは常識ではないのかな?と思わされることが
先日、こちらのポストをお見かけしました。 AI技術開発部の高橋が社内勉強会の資料「時系列予測にTransformerを使うのは有効か?」を公開しました。 論文Are Transformers Effective for Time Series Forecastingの紹介を中心に、時系列予測について解説しています。ぜひご覧ください。https://t.co/LplxTT8b1d pic.twitter.com/nUXb4bGiQ3— GO Inc. AI Tech (@goinc_ai_tech) 2023年9月28日 なるほど、NN全盛というかNN一択の時代にあっては時系列予測もNNでやるのが当たり前になったのだなという感想でした。大昔「沖本本」で古典的な計量時系列分析を一通り学んだ身としては隔世の感がありますが、これもまたNN時代の趨勢なのでしょう。 なお、元論文2点は上記リンクから辿
先日、『しっかり学ぶ数理最適化 モデルからアルゴリズムまで (KS情報科学専門書)』の梅谷先生がこんなポスト(ツイート)をされているのを拝見したのでした*1。 個人的には「学問的なものでビジネスのボトルネックを解消する」や「学問的なものでビジネスモデルや業務プロセスをひっくり返す(変革する)」を意識してる。ビジネスモデルや業務プロセスを分析して、解消すべきボトルネックを見つけることから着手した方がスムーズかなと思ってる。 https://t.co/F2SBY57Vt7— Umepon (@shunji_umetani) 2023年9月25日 既にこのブログでも何度も述べていますが、いわゆる「データサイエンス」がここ10年の企業社会におけるビジネスに変革をもたらしているということは論を俟たないと思います。その観点から言えば、程度問題ながら「学問的なものでビジネスのボトルネックを解消する」「学
「最後の統計学界の大御所」の一人で、2013年に亡くなったGeorge E. P. Box*1が残した格言 "All models are wrong; but some are useful"(全てのモデルは間違っている、だが中には役立つものもある)ですが、このブログでは過去に何度も紹介しているのでお馴染みという方も多いかと思います。 実際、5年前にもBoxの格言については独立した記事として取り上げており、ちょっとしたシミュレーションと共に「厳密ではないが有用なモデル」の話題を展開しています。ただ、今回の記事で僕が改めてBoxの格言を取り上げようと思った背景はまた別にあります。それが、広告マーケティング業界で最近ルネサンス的な脚光を浴びているMMM (Media/Marketing Mix Models)の扱われ方という問題です。 MMMというと経営学のマーケティングの教科書にも載ってい
このブログでも何度か引用しているこちらの記事で、「データサイエンティストという職業は10年以内に消える」という趣旨の議論がされていたのがちょうど10年前の2013年でした。ちなみにこの記事はついているブックマーク数に比して当時は結構注目を集めたという記憶があり、割と業界内では「確かにこんな中途半端な職業が10年後もあるわけないよね」と言われていたのを思い出します。 実際には皆さんもご存知のように、2023年になってもデータサイエンティストという職業はついに消えることなく、現在に至るまで残り続けています。その経緯がどんなものであったかは、業界10年史記事でもある程度触れた通りです。 しかし、同時に現在では「生成AIの普及でデータサイエンティストの仕事がなくなる」という風説も出回っており、改めてデータサイエンティストという職業の将来性に不透明感が漂いつつあるのもまた事実です。そこで、今回の記事
先日、ふとしたきっかけでしましま先生*1がこちらの論文について触れられているのを見かけたのでした。 これは推薦システム分野におけるNN研究の再現性について検証した2019年の論文で、近年のトップ会議*2に採択されたNN手法18個に対して再現を試みたところ、「reasonableな」努力で再現できたのはわずかに7個に過ぎず、その中でも1個は論文中で主張されたベースラインを超えることは出来なかったと報告しています。 ただ、この報告はNN研究における再現性に関する議論のあくまでも一例であり、実際コロナ禍以前から「論文中ではSOTAを達成と書いているのに同じ実装をどう組んでもSOTAに達しない」みたいな業界噂話はそこかしこで耳にしたものでした。しかしながら、実際のソフトウェアやアプリケーションとしてそれらのNN手法が用いられて、尚且つその結果として何かしらの不具合でも起きない限りは、機械学習業界の
(『IT Text 自然語処理の基礎』より) 3ヶ月ほど前に空前のLLMブームについて概観する記事を書きましたが、それ以降も世間のLLMに対する狂騒ぶりは収まるどころかますます拍車がかかるという有様で、あまつさえ僕自身の仕事における日常業務にもじわじわと影響が及びつつあり、今後も良きにつけ悪しきにつけLLMと共生し続ける必要がありそうだと感じている今日この頃です。 そんな猫も杓子もLLMに群がるが如き空前のブームを受けて、エンジニアやデータ分析職の方々の中には「LLMに興味はあるんだけど世の中にあまりにも多くのLLM関連コンテンツが溢れ返っていて何から手をつけたら良いのか分からない」という向きもあるように見受けられます。そこで、僕も断じてLLM以下生成AIの専門家などではないのですが、個人的に「このテキストを読めばLLM時代を生き抜くことが出来そうだ」と感じた書籍を、全くの独断と偏見で3冊
Hafa Adai!!*1 6月中旬、夏至のちょっと前にグアムに行ってきました。コロナ禍以降これまで全く海外に行っておらず、また昨年5月にDVT(深部静脈血栓症)に罹ってから*2は飛行機にすら乗っていなかったので、その両方を今回ようやく解禁したという次第です。 行き先をグアムにした理由は幾つかあるんですが、1つ目は飛行機で4時間未満しかかからず「海外としては極めて近い」ということ。2つ目は時差が1時間しかないということ。3つ目は「南の島でゆっくりしたかった」ということ。1・2番目は主にDVT*3を慮った結果なんですが、3番目に関しては10年前にも行ったサイパンでも良かったんですよね。ただ、サイパンは今でも直行便が少なく不便なのに対して、グアムの方が直行便が多くて尚且つ我が家ではまだ行ったことがなかったので、今回はグアムを選んだのでした。 ということで、我が家としては事前に期待した以上にグア
先日こんなことをコメントしたら、思ったよりも反応が多くて「皆さん同じことを思っていたのかな」と感じたのでした。 シュートを外した後でゴールポストを動かして入ったことにするのはダメですよ / 「当初は有意差が認められなかったが、毛乳頭細胞が少ないと思われる被験者を除いて追加解析したころ、塗布24週後の毛髪密度は「含む」を使った被験者のほうが統計学的に有意に上昇したという」 https://t.co/K91NElUAgN— TJO (@TJO_datasci) 2023年6月6日 要はこれは再現性問題の典型例だという話なんですが、近年あれだけ再現性問題が騒がれた割には意外と未だに世間的にはあまり広く知られていないのだろうか、という気もしています。 このブログでも再現性問題については一通り論じたことがありますが、ちょうど良い機会なので改めてこの手のQRPs (Questionable Resea
先日こんな記事を書いたのでした。はてブも400近くに達しており、良くも悪くもバズったようです。 で、この記事の中で言いたかったことは幾つかあるのですが、その一つに「文書・テキスト要約など『そもそもLLMというかLM自体が得意な仕事』をさせると便利なはず」というのがありました。そして実際に現職の日常業務の中でも時々使っているのですが、確かに便利だなぁと思うことが多いです(もっとも時々凄まじいhallucinationを炸裂させてくることもありますが)。 そこでちょっと考えたのが「データ分析の諸作業のうち何をLLMにやらせると効率的か」というお題です。これはちょっと調べれば既に試している人が結構いて、例えば以下のような事例があったりします。 ただ、例えば "Titanic" のような有名過ぎるデータセットだとそこらじゅうにこれを対象として分析してみましたという記事やドキュメントが沢山転がってお
次のページ
このページを最初にブックマークしてみませんか?
『渋谷駅前で働くデータサイエンティストのブログ』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く