サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
Switch 2
takuti.me
Google Cloud Composerのリリース(2018年7月19日GA)から遅れること2年数ヶ月、AWSは2020年11月24日に Managed Workflows for Apache Airflow (MWAA) をリリースした。 Introducing Amazon Managed Workflows for Apache Airflow (MWAA) それから1年、遅ればせながら自分でも軽く試してみた。AWSコンソールからAirflow UIに飛ぶのに違和感を覚えつつも1、種々のAWSサービスとの連携を考えると「むしろなんで今まで無かったんだろう」という気さえする。 概要 公式のデモ動画が分かりやすいので、まずはそれを見てみよう。 ポイントは次の通り。 DAGファイル(Pythonコード)は専用のS3バケットに置く OSSのAirflowに完全準拠 (事前に設定した上限値
『もしも推薦システムの精度と多様性が単一の指標で測れたら』で、直近のRecSys 2021で発表された新しい推薦システムの評価指標 $\alpha\beta$-$\mathrm{nDCG@}k$ を見た。以降、引き続き推薦多様性についてサーベイしているのだけれど、どうやら僕はいきなりエクストリームな論文を読んでしまっていたらしい。 今回はもっとシンプル(だけど実用的そう)な論文 "Managing Popularity Bias in Recommender Systems with Personalized Re-ranking" @ FLAIRS 2019 について。 前提として、世の中のアイテムは「Short-head—常に推薦されるような超人気アイテム」「Long-tail—見落とされがちだけど候補として有望なアイテムたち」「Distant-tail—その他、有象無象と言われても仕
RecSys 2021採択論文の中で気になっていた "Towards Unified Metrics for Accuracy and Diversity for Recommender Systems" を読んだ。 独特かつ曖昧な表記の数式が並ぶ「読んでいてイライラするタイプの論文」ではあったものの、推薦結果の Relevance(履歴に基づく類似度;古典的な“精度”に直結)と Novelty(ユーザにとっての推薦結果の新規性・多様性;セレンディピティに寄与)を相互に検討する際の論点、手法に求められる性質、実験のフレームワークのリファレンスとして有用な研究であるように思う。 一方、提案手法の筋の良さ、およびその実用性は疑わしい。定義の曖昧なパラメータを内在し、データに関して十分に事前知識のあるオフラインでの性能評価にユースケースを限定しているためだ。 いずれにせよ「精度の先にある、ユーザ
この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 テック系メディアの枠を超えた幅広い媒体での連日の報道を見て、何やらとんでもなく歴史的な瞬間に立ち会っているような気分になってきた。興奮さめやらぬうちに、個人的に思ったことを書き留めておく。 今週、アメリカ上院の公聴会の場で行われたFacebook元従業員による証言。それは、同社が「Facebook, Instagram上の一部デジタルコンテンツは子供に対して有害である」という事実を十分に理解しながらも、莫大な利益を優先して配慮を欠いたランキング(コンテンツ推薦)アルゴリズムを採用し続けている、というもの。結果として、10代の若者を中心にSNSが原因による深刻なメンタルヘルスの問題が起きている、と。そして、奇しくもこの証言と前後する形で同社サービスが長時間ダウンした。 フェイスブックは「子供に害を及ぼし
ソフトウェアプロダクトマネジメントのバイブル "Inspired" の続編 "Empowered"、わかりみが深い。 この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 これまでに読んだソフトウェアプロダクトマネジメントに関する本の中で個人的にいちばん信頼している "Inspired" の続編、"Empowered" を読んだ。 内容的には特に目新しい点もないのだが、前作同様、点と点をつなげて一冊の本という“プロダクト”を作るのが本当にうまい。聞いていて耳が痛くなるような話をフックに「なぜそれが重要なのか」を読者に訴えかけ、ロールモデルやケーススタディを交えて「じゃあどうすればいいのか」をクリアに伝えてくれる。 エンジニア、デザイナー、プロダクトマネージャーを基本とする「プロダクトチーム」1。前作ではそんなプロダクトチームが顧客を "Inspire"
この記事に関連する話題: ソフトウェアエンジニア、カナダに渡る。 修士課程修了から4年半の間働いたトレジャーデータ (Treasure Data; TD) を8月13日(金)に退職した。インターンから数えるとちょうど5年のお付き合いになる。 ソフトウェアエンジニアとして入社 (2017-2019) 修士課程で機械学習が専門ではない指導教員の下で機械学習を学ぶために Hivemall, Digdag, 自然言語処理, 機械学習などについて話しました プロダクトマネージャーに転身 (2020) 僕は「世界で闘うプロダクトマネージャー」にはなれない。 機械学習エンジニアのキャリアパス。プロダクトマネージャーという選択肢が拓く可能性 カナダ・バンクーバーオフィスに転籍 (2021)1 トレジャーデータ株式会社を退職して Treasure Data (Canada) に入社しました そして今週から、
この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 プロダクトマネージャー (PM) としてのこれまでの私的な経験を踏まえて、『プロダクトマネジメントのすべて 事業戦略・IT開発・UXデザイン・マーケティングからチーム・組織運営まで』を読んで思ったことをつらつらと。 (8/12 追記)冒頭で示しているように、本記事ではPM=プロダクトマネージャーとして表記しています。後述の通りPMとプロジェクトマネージャーは異なるものであり、後者に対して略記は用いていません。 プロダクトマネージャーは本当に“魅力的な職業”か “完璧な世界”など存在しない 良かった点 「PMはミニCEOである」という言説や「PMとプロジェクトマネージャーの違いは?」というよくある質問に対する補足 「プロダクトの成功」を定義するところから始めることの重要性 PMの武器は信頼、情熱、共感、
この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 『行動を変えるデザイン』を読んだ。「何らかの行動をユーザに自然と促すプロダクト」のデザインに焦点をあてており、心のはたらきや認知の特性を理解することから始めている点が、他のユーザ分析・プロダクトデザイン手法を説いた書籍と一線を画す。 思考停止で使える“単純なプロダクト”の意義 『データよりもストーリーを、相関よりも因果を。』で見たように、認知科学や行動経済学はいかに僕ら人間の認知機能がテキトーなものかを教えてくれる。それはあまりにも怠惰で、僕らは日々の選択・行動をほぼ無意識かつ自動的に行っている。そしてデフォルトの選択肢や“なんとなく”良さそうな方を、そうと気づかぬまま安易に選んでしまう。 ユーザ(人間)とは、できるだけ負荷の小さい習慣や本能、経験則(認知的ショートカット)に基づいて行動する単純な生き
『AIアルゴリズムマーケティング 自動化のための機械学習/経済モデル、ベス トプラクティス、アーキテクチャ』、積読消化メモ。 一言でいえば、知識に物を言わせたイケイケエンジニアによる「わたしのかんがえたさいきょうのマーケティング最適化理論”入門”本」。第一章の次の一文が象徴的: 全体的には、次の式を理解できれば、問題なく読み進めることが出来るだろう。$\mathbb{E}[X]=\int^{\infty}_{-\infty}xf_X(x)dx$ お、おう・・・。 『集合知プログラミング』の次の一冊になり得る実践的な何かを勝手に期待していたが、残念ながらそんなことは無かった。 教科書的な記述がメイン 全体を通して、機械学習・数理最適化の理論とマーケティングの諸概念を頑張って繋ごうという強い意思が読み取れる。しかし果たしてこの内容が響く層がどれだけいるのか、謎である。冒頭に「マーケティング責任
この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 プロダクトマネージャー自身がその製品・事業・技術に対して強い熱意・使命感を持っていないのなら、それはおそらく真である—という話を "Hi Product Managers, Are You Creating Products That *You* Love?" で書いた。 Knowing how to build products that *customers* love won't be enough. More importantly, building a product that *you* love should be the minimum qualification to be a PM, and the fact ultimately enables the product to b
この記事に関連する話題: ソフトウェアエンジニア、カナダに渡る。 2021年2月26日現在の情報です。最新の情報は必ずカナダ政府の "COVID-19: Travel, quarantine and borders" を確認してください。 現地時間2月22日(月)からカナダ政府による新たな入国規制が施行された。『トレジャーデータ株式会社を退職して Treasure Data (Canada) に入社しました』のために、そのわずか4日後に入国をするというレアな経験ができたので、情報が新鮮なうちにまとめておく。繰り返しになるが、状況は日々変わっているので最新情報は必ず公式で確認してほしい。 まず、これまでの規制と合わせて、2月22日以降カナダに入国可能な人たちに課されている主な制約は次の通り(太字が新ルール): 公式アプリ ArriveCAN をインストールの上、「隔離期間中の滞在先」および「
この記事に関連する話題: ソフトウェアエンジニア、カナダに渡る。 大学院を修了してから4年強の間勤めたトレジャーデータ株式会社を28歳の誕生日(2月25日)付で退職して、翌日から所属がカナダ支社の Treasure Data (Canada)1(以下、TD Canada)になった。 仕事内容や給与はほぼ変わらないけれど2、日本法人に籍を置いたままの赴任とは異なり、日本法人を退職→住民票を抜いて移住→カナダ支社で正式に雇用、という形。一般的な日本での退職手続きを経て、何事もなかったかのように新入社員向けの "Welcome to Treasure Data" メッセージが届いた。 コロナ禍での移住ということでイレギュラーな話は多々あるが(というか基本イレギュラーな話しか無い)、そのあたりの知見は次の記事でまとめるとして、ここでは転籍・移住のモチベーションや今後について。 なお最新状況は期間限
今年も残すところあと一ヶ月。「最高の年だった」とは到底言い難いけれど、一年前よりは今のほうがずっと「生きている」という感じがするので、概ね良い一年であったことは間違いない。 Audible版の『反応しない練習』が良すぎて3回聴いた今、その実感は人や物と「マインドフル」に向き合うことを心がけた結果に他ならないのだと納得がいく。 「マインドフルネス」と聞くと掴みどころがない感じがするけれど、英単語の "Mindful" で考えると、その本質が意味するところは「目の前の物事に気を配る・意識を集中する」ということであり、それ自体は何も難しいことはない。 いったん「自己観察」の感覚がつかめると、日常のあらゆる状況がマインドフルネスのトレーニング場に変わります。(中略)雑巾がけ、歯磨き、炊事、洗濯など、すべての家事をマインドフルに行うだけでも、あなたの不安は減っていくでしょう。 最高の体調 具体的にで
Pythonではこんなリストをイメージしよう: conversions = [ (('Twitter', 'Instagram',), 2), (('Facebook',), 5), (('Instagram', 'Facebook', 'Twitter', ), 1), ... ] アウトプット(アトリビューション分析結果)として、チャネルごとに貢献度を示す何らかの値が得られるものとする: attribution = { 'Twitter': 0, 'Instagram': 0, 'Facebook': 0 } ※参考:『アトリビューションとは:5分でわかる意味と5つの基本モデル』 ラストタッチ (Last-Touch) 最も単純なアトリビューションモデルのひとつ、コンバージョン直前のタッチポイント全振りパターン。購買直前に見たのがTwitter広告なら、そのコンバージョンは「Twitt
みなさん“投資”してますか?まだの方は『投資の大原則』を今すぐ読んで、どうぞ。 そう、低コストで継続的に長期分散投資。そして定期的にリバランス。これが原則。 え?おすすめは○○証券の××というインデックスファンド?それも興味深いけれど、今日は僕らの“時間”という資産に対してどのようなポートフォリオを組んで投資するか、というお話。 きっかけは久しぶりに読み返していた『逆説のスタートアップ思考』の次の一節: 「人生にとって、もっとも大切な資産は時間」だとピーター・ティールが指摘するように、私たちは全員、自分の時間という資産の投資家です。(終章・逆説のキャリア思考) この考え方に倣って『投資の大原則』を時間という資産に応用すると、どのようなことが言えそうか。 低コストで「60点〜80点くらいを目指して、」 継続的に「息切れしない程度に手を動かし続けて、」 長期分散投資「多様な経験を得ることに時間
この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 他人の仕事の難しさ・勘どころを正しく想像できる者に、私はなりたい。 もちろん専門外の話であればそれを100パーセント理解するのは難しいし、知った気になって軽々しく口を出すのも違う。でもその仕事に向き合う人の“気持ち“を知る努力はできるはずだ。その努力なくして「あのチームは仕事が遅い」「なんでこの程度のモノしか作れないのか」などと批判をするのは大変格好が悪い、と僕は思う。 社内外の様々な会話のハブとなるプロダクトマネージャーという仕事において、この点は特に重要だと思う。 ・・・という話は既に "Don't "Guess" How People in Other Roles Work" で書いた通りで、書籍 "Inspired: How to Create Tech Products Customers
この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 以下の3点において。 インタビューで「世界で闘うプロダクトマネジャーになるための本」に書かれているような質問をされたとして、答えられそうにない 属する組織の規模や仕組み、製品の種類によってプロダクトマネージャーの役割は大きく異なる。仮に今のチームで世界に轟く大きな成果を挙げたとして、次のプロジェクトで同様に活躍できる保証はどこにもない 国が違えば課題も違う。地理的な意味で、真に世界をまたにかけてプロダクトマネージャーとして仕事をするのは相当難しい "Why a Data Science Engineer Becomes a Product Manager" に書いたとおり、今年2月にエンジニアからプロダクトマネージャー (PM) に転身した。そこから1四半期強。幸い悩む時間は無限にあったので、ここで一
旅を繰り返し、自分だけの地図を塗りつぶしていく感覚。実績解除の瞬間はいつも気持ちがいい。 と同時に、「初めて」その地を踏む瞬間の興奮は一生に一度限りのものであり、その対象が着々と減っていくのはどこか寂しい気もする。 だから、僕は旅先ではあえて「次また来る理由」を残すようにしている。 いわゆる観光名所を全部は回らない。いきたいレストランのうち1つは諦める。スコットランドに来て一晩しか無いからと言って、パブをはしごしてリアルエール、スコッチウイスキー、ジン、ブリュードッグを飲みつくそうとしない。 しかし昨今の状況で世界は大きく変わった、はずである。繰り返し訪れたあの国のあの場所も、次に行くときには良くも悪くも全く違った体験をもたらしてくれるだろう。 これまで塗りつぶしてきた地図は思い出の品となり、まっさらな地図を手に入れたと言っても過言ではない。 どこへ行っても以前の常識や経験は当てにならず、
この記事に関連する話題: プロダクト開発者に求められる、これからの「倫理」の話をしよう。 Netflixの "Inside Bill's Brain" で Think Week に入るビル・ゲイツの映像を見た。これに影響されて、今年のゴールデンウィークは家にこもり、スマホとPCの電源を完全に切って本を読み込んでいた。 最近の個人的な興味は、物事の裏側にある「ストーリー」や「コンテクスト」の持つ力にある。 ストーリーを伝えられないプロダクトの虚しさ データ時代の「リアル」の価値 “いいもの”ってなんだろう 表面的なデータ分析では測ることのできない、もっと深いところにある“なにか”。顧客に寄り添い、個の存在を重んじ、パーソナライズされた体験を提供する・・・その意義はなんとなく分かるのだけど、同時に、こういう話はどうも抽象的で掴みどころがない。誰かその本質をもっと論理的に説明してくれないだろうか
2月19日に開催された PLAZMA: TD Tech Talk 2018 Internal Day で、Treasure Dataがユーザに提供している機械学習・自然言語処理の機能の実体をお話しました。 録画もあがっているようです: PLAZMA TD Internal Day: TD Tech Talk 2018 - YouTube 「業務またはプライベートで機械学習に触れている方」という問いに対して聴衆の半数以上が手を挙げたのには正直驚きました。エンジニアリングとサイエンスの垣根が低くなっているというのは、大変喜ばしいことだと思います。 そんな聴衆の皆様は、まさか2018年に、機械学習に関するトークでロジスティック回帰とTF-IDFの話だけ聞かされるとは思っていなかったことでしょう。 わかりますよ。僕だってもっとゴツい手法をドーンと実装してバーンッって感じの結果を見せてドヤりたい。
"Designing Data-Intensive Applications"は濃密すぎる一冊だったので2018年の自分にも読んでもらいたい 分散システムに関する理解を整理するための一冊として素晴らしい、という声があり気になっていた "Designing Data-Intensive Applications" を一通り読んだ: https://twitter.com/frsyuki/status/846431130437890049 僕のような「用語としては知っている」程度の新人に「なぜそれが大切なのか」「なにが難しいのか」といったポイントを丁寧に説明してくれる、学びの多い充実の一冊だった。 冒頭では『早すぎる最適化(不要不急のスケーラブルなシステムの構築)は制約が増えてシステム設計が不自由になるだけなので無駄』という事実に触れ、適切なツールを選択することの重要性を説いている。本書が50
"Dynamo-style" に学ぶ Replication, Partitioning, Consistent Hashing の気持ち 先日、DynamoDB設計の背景にあった可用性とスケーラビリティの両立に対するAmazonのアツい想いについて書いた: AmazonのDynamoDB論文を眺めた 背景だけだと寂しいので、ここではもう少し詳しく、DynamoDBの実装を支える Replication と Partitioning の基本、そして Consistent Hashing について、"Designing Data-Intensive Applications" (DDIA) の解説も踏まえてまとめておく。 Replication DynamoDB(分散DB)が考えるべき問題の1つに、データのコピーをネットワーク上の複数のマシン(ノード)で保持する Replication(レプ
あるいは、論文 "Best Practices for Scientific Computing" および "Good Enough Practices in Scientific Computing" について。 TL;DR 標題の件について、未だに答えは見えていないのだけど、自分の現状と他の人の例を文字で残しておく。 こういう話で「あーその手があったかー!」と知ったときの興奮はすごいので、みなさんもっとオープンにいきましょう。 大切なのは、ソフトウェア開発と同じ要領でデータサイエンスのプロジェクトを捉えて、分析と言う名の“開発”を行うつもりでディレクトリを掘ること。 必要なものリスト ナウいデータサイエンス/機械学習プロジェクトの中には(経験上、ぱっと思い浮かぶだけでも)次のようなファイル群があって、僕たちはそれらを良い感じに管理したい。 ソースコード 役割がいろいろある: 前処理(こ
"Seven Databases in Seven Weeks" や "Designing Data-Intensive Applications" でも度々参考文献に挙がっていたので、AmazonのDynamoDB論文を眺めて思いを馳せていた: Dynamo: Amazon's Highly Available Key-Value Store (SOSP 2007) ここでは特に2章・バックグラウンドの内容を整理しつつ、AmazonがDynamoDBに込めた想いに触れてみる。拙記事『The Amazon Way on IoT - Amazonのビジネスから学ぶ、10の原則』でも紹介した、Amazonの "Customer Obsession"(お客様第一)という理念を踏まえて読むと大変味わい深くてよろしい。 教訓: システムの Reliability と Scalability は、いか
元インターン先であるシルバーエッグ・テクノロジーとのご縁があり、『ビッグデータ解析のためのAI技術の最新事情とビジネスへの応用』という名前だけ聞くと心配になるセミナーで講演の機会をいただき、昨今の推薦システムのトレンドについてお話してきました: ※ 修士研究までの僕個人の経験に基づいた内容であり、これが世の中の全てではありません。 ※ 論文などですでに公開されている情報しか含んでいません。 ※ 内容は、過去および現在のいかなる所属の立場を代表するものでもありません。 はむかず先生が「趣味は筋トレです」と自己紹介していたので便乗したけど、ちゃんとジムに通っている先生に対して、僕は家でプッシュアップ、腹筋ローラー、チューブエクササイズ各3セットを週2〜3回やっているだけで、あとはそこにランニング(6-10km)またはプール(1時間弱)を加えている程度なので本気度が違う。 セミナー後には、公営の
推薦システムの業界で知らぬものはいない、ミネソタ大学のレジェンド級プロフェッサーJoseph Konstan先生が Podcast "Data Skeptic" に出演していた: Recommender Systems (live from Farcon) | Data Skeptic Courseraの推薦システムのコースでお世話になり、その後 RecSys 2016 でユーモア満載の生Konstan先生を見たときはすごく感動したことを覚えている。 振り返れば、RecSys 2016 で他の発表者がアルゴリズム寄りの“普通”の話をしている中、先生のグループ (GroupLens) の研究は真剣に『ユーザ体験』『インタフェース』『HCI』という視点で議論を展開していて、やっぱりこの人はすごい…と感じたものである。推薦システム≠機械学習であり、非常に奥が深い分野なのだと改めて気付かされた。
不均衡データ (imbalanced data) からクラス分類を行うとき、マイナーなクラスに属するサンプルの oversampling や、メジャーなクラスに属するサンプルの undersampling (downsampling とも) が大切(cf.『不均衡データのクラス分類』): (▲ Tom Fawcett氏による記事 "Learning from imbalanced data" 中の5番目の図を引用) このテクニックを使って学習した分類器による予測確率は、少し調整してから解釈したほうがいいらしい、という話。 Imbalanced data と Oversampling/Undersampling たとえば2クラス分類をしたいとき、ラベル1のサンプル(正例)がわずか 0.01% しか存在せず、その他 99.99% のサンプルはラベル0(負例)、みたいな状況がある。 そこまで顕著
Courseraの"Functional Programming in Scala Specialization"を修了した ここ1年くらい暇を見つけてちまちまと遊んでいたCourseraの "Functional Programming in Scala Specialization" という一連のプログラムを修了した。 4つのコースから構成されていて、(修了証は出ないけど)課題を含めてすべて無料で受講できた。課題はスケルトンコードとデータが与えられて、指定されたメソッドを実装する、というよくある形式。 Functional Programming Principles in Scala 関数型プログラミングの基礎 パターンマッチとか高階関数とかImmutableなデータ構造の話とか Functional Program Design in Scala 発展的な関数型プログラミングの概念
この記事に関連する話題: "AI"を紐解く いま、世の中は空前の人工知能ブームである。あれもこれも人工知能、こっちだってAI、そっちはディープラーニング。『ファジィ』という言葉が流行り、ファジィ炊飯器などが大量に出回った90年代を想起する先輩方も多いらしい。 一方で、バズワードとしての『人工知能』を鼻で笑うエンジニア、研究者、学生もいる。彼らは世間の期待と現実のギャップを理解している。だからこそ、そんなバズワードを安易には受け入れない。 この現状に何を思うか。 僕だって、会話の中で AI という単語がでると胸がザワザワするのが正直なところ。しかし、じゃあその言葉が使われなくなれば良いのかというと、それもちょっと違う気がする。 はむかず先生の記事『「人工知能」という言葉について考える』を読んで触発されたので、この『人工知能』という言葉の使われ方・使い方について、個人的な気持ちを書きなぐってみ
次のページ
このページを最初にブックマークしてみませんか?
『blog.takuti.me』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く