並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 31 件 / 31件

新着順 人気順

word2vecの検索結果1 - 31 件 / 31件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

word2vecに関するエントリは31件あります。 機械学習Word2VecNLP などが関連タグです。 人気エントリには 『学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ』などがあります。
  • 学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ

    ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec は教師なし学習のため、コーパスさえ準備できれば誰でも新しい単語分散表現を学習することができます。 しかし、実際に word2vec を使う際に、どのように評価すれば良いのかがよく分からず、配布されて

      学習済み日本語word2vecとその評価について - 株式会社ホクソエムのブログ
    • 深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで

      第1回Webインテリジェンスとインタラクションセミナー(いまさら訊けないシリーズ「言語処理技術」)での発表資料です。 https://www.sigwi2.org/next-sigRead less

        深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
      • Word2Vecの紹介

        先程作成したベクトル結果を2D座標に反映しましょう。 転換した結果、動物の距離を計算できます。例えば、犬と猫の距離は犬と鳥の距離より近いことがわかります。 単語のベクトルを使って文書はベクトル空間の位置も計算できます。文書に含まれている単語のベクトルを平均値計算して結果を取れます。 文章をベクトルする方法 単語のベクトル結果を使って、文章もベクトルに転換できます。文書に含まれている単語のベクトルの平均値は、文章のベクトルになります。例えば“猫は金魚を食べました”を、前の動物の単語をベクトルした結果でベクトルします。計算の流れは下記の図になります。 実際の業務に使用できる文書のベクトル計算は二種類あります。 1 文書に含まれている単語のベクトルを平均値計算します(単語がN個ある場合は下記の計算式になります)。 2 文書に含まれている単語のベクトルを平均値計算して各単語のTFIDF値を掛けます

          Word2Vecの紹介
        • Word2Vecとは | 分散表現・Skip-gram法とCBOWの仕組み・ツールや活用事例まで徹底解説 | Ledge.ai

          サインインした状態で「いいね」を押すと、マイページの 「いいね履歴」に一覧として保存されていくので、 再度読みたくなった時や、あとでじっくり読みたいときに便利です。

            Word2Vecとは | 分散表現・Skip-gram法とCBOWの仕組み・ツールや活用事例まで徹底解説 | Ledge.ai
          • yhkondo on Twitter: "word2vecに代表される単語の意味のベクトル化の手法は現代語では普通だが、意外に古文に適用した例を知らない。『源氏物語』で試すとなかなか面白い。意味の加減算ができるので有名だが、「女房」から「女」を引くと、「僧」になる。「侍従… https://t.co/BZGi2AC1UL"

            word2vecに代表される単語の意味のベクトル化の手法は現代語では普通だが、意外に古文に適用した例を知らない。『源氏物語』で試すとなかなか面白い。意味の加減算ができるので有名だが、「女房」から「女」を引くと、「僧」になる。「侍従… https://t.co/BZGi2AC1UL

              yhkondo on Twitter: "word2vecに代表される単語の意味のベクトル化の手法は現代語では普通だが、意外に古文に適用した例を知らない。『源氏物語』で試すとなかなか面白い。意味の加減算ができるので有名だが、「女房」から「女」を引くと、「僧」になる。「侍従… https://t.co/BZGi2AC1UL"
            • Word2vecとは?前後の言葉から単語の意味を表す手法

              近年はさまざまな分野において、AIを搭載した製品(サービス)が積極的に活用され始めています。その中でも、コミュニケーションに必要不可欠な言語の分野では、自然言語処理をはじめとする技術によって利便性が向上しており、大きな注目を集めているのです。 そこで今回は、自然言語処理の技術向上において重要な役割を果たしている「Word2vec」について詳しくご紹介していきますので、是非参考にしてみてください。 自然言語処理について詳しく知りたい方は以下の記事もご覧ください。 自然言語処理とは?できること、種類、活用事例を解説! 自然言語処理-NLP-のサービス比較と企業一覧 別名:ベクトル空間モデル、単語埋め込みモデル Word2vecとは、文章に含まれる単語を「数値ベクトル」に変換し、その意味を把握していくという自然言語処理の手法です。比較的簡単に学習を行えるPythonを用いて実装できるので、初心者

                Word2vecとは?前後の言葉から単語の意味を表す手法
              • Word2Vecを理解する - Qiita

                はじめに 今や自然言語処理の定番手法となっているWord2Vecについて勉強したことをまとめました。 そのアルゴリズムの概要を整理しライブラリを用いてモデルを作成しています。 参考 Word2Vecを理解するに当たって下記を参考にさせていただきました。 ゼロから作るDeep Learning ❷ ―自然言語処理編 斎藤 康毅 (著) 絵で理解するWord2vecの仕組み Efficient Estimation of Word Representations in Vector Space (元論文) gensimのAPIリファレンス Word2Vec概要 下記ではWord2Vecの前提となっている自然言語処理の考え方について記載しています。 単語の分散表現 単語を固定長のベクトルで表現することを「単語の分散表現」と呼びます。単語をベクトルで表現することができれば単語の意味を定量的に把握す

                  Word2Vecを理解する - Qiita
                • ノンプログラミングでBERT,Word2Vec,tf-idf,BM25を試す|MatrixFlow

                  こんにちは! 株式会社MatrixFlowのMatrixFlowチームです。 今回はMatrixFlow バージョン0.3.8で自然言語処理のアルゴリズムを大きく増やしたので、使ってみたいと思います。 まず、今回増やしたアルゴリズムですが、BERTとWord2VecとBM25+を使えるようにしました。 それぞれの解説を軽くしたいと思います。 BERTとはTransformerという手法を使ったDeep Learningのモデルです。 2018の10月にGoogleの研究チームが発表し、2020年7月の現在では5000近くの論文で引用されています。文章読解のベンチマーク「SQuAD 1.1」で人間の精度を初めて超えたことで話題になりました。また特定のタスクだけでなく多種類のタスクで最高精度を出したのも業界を驚かせました。 MatrixFlowは内部では「HuggingFace」のモジュールを

                    ノンプログラミングでBERT,Word2Vec,tf-idf,BM25を試す|MatrixFlow
                  • 特許文章版 分散表現:word2vecの学習済モデル ver1.0 - Qiita

                    分散表現公開 前回作った分散表現のバージョンアップ版(ver1.0) 特許版word2vec学習モデル(.model)214MB注意 特許版word2vec学習モデル(.model.wv.vectors.npy)3160MB注意 特許版word2vec学習モデル(.model.trainables.syn1neg.npy)3160MB注意 2013~2015年に日本国特許庁で発行された全公開公報(150万件ほど)の全文を用いて学習 tokenizeはMeCab+NEologdです。 次元数は300次元 ただし、データが重すぎてエラーが出てcolaboratoryでは動かない場合があります。動作が確認できたのはGCEの n1-highmem-8 (8 vCPUs, 52 GB memory) です。これくらいのスペックがないと動かないかもしれません。 です。 model.corpus_cou

                      特許文章版 分散表現:word2vecの学習済モデル ver1.0 - Qiita
                    • ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita

                      ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT)MachineLearningDeepLearningword2vecbertELMo 自己紹介 単語の分散表現について簡単にまとめました。 自己紹介:Pythonでデータ分析とかNLPとか異常検知とかしてます。 質問やツッコミなど有りましたらぜひコメント下さい! モチベーション 自然言語をコンピュータに認識させるために数値化する必要が有ります。 「文の数値表現」と「単語の数値表現」があり、今回は後者にフォーカスして紹介します。 後者のうち、1単語を低い(数百程度の)次元のベクトルで表現したものを「分散表現」といいます。 分散表現にすることで以下の効果があります。 省計算量 省メモリ 意味をエンコード可 手法によっては文脈をエンコード可(多義語を理解させられる) 用語説明 : 「自然言

                        ざっくり理解する単語の分散表現(One-hot encode, word2vec, ELMo, BERT) - Qiita
                      • 曲のコードをword2vecでベクトル化し、t-SNEで可視化してみた - Qiita

                        概要 曲はコードと呼ばれる和音によって成り立っています。それらは並び順が非常に大切で、それによって曲の情緒が変わります。複数個のコードの塊をコード進行と読んでいて、例えば【IーVーVImーIIImーIVーIーIVーV】というカノン進行と呼ばれる代表的なものがあります。並び順が大事という点で、曲は文章、コードは単語、と置き換えて考えると、word2vecでベクトル化し、t-SNEで2次元に圧縮して図示すればコード同士の相関が見えるんではないか、という仮定を検証しました。 堅苦しく書きましたが、コード(プログラミング)でコード(和音)を解析するってイカしてね?くらいのノリを共感して頂ければ嬉しいです。 (これは完全に憶測なんですが、リーダブルコードというプログラミングを行う際のコードの書き方をまとめている名著がありまして、そのカバーが音符になっているのはそういうことなのでは、と思っています。。

                          曲のコードをword2vecでベクトル化し、t-SNEで可視化してみた - Qiita
                        • 【Python】Word2Vecで単語の分散表現を体感する

                          Word2Vecとは Word2Vecは2013年にトマス・ミコロフにより提案された自然言語の数値化の手法です。 トマス・ミコロフはGoogle在籍のエンジニアで、Word2Vecの発明により、Google翻訳の性能が著しく向上したと言われています。 Word2Vecの何がすごいか Word2Vecは単語の分散表現を取り入れたモデルです。 単語の分散表現とは、単語を固定長のベクトルで表すことです。 単語の一つ一つを、ベクトル空間における点として表現することで、単語同士の距離(類似度)を測ったり、演算(足し算・引き算)したりすることが可能なモデルになっています。 Word2Vecは、文章を学習用テキストデータとしてあたえ、周辺にある単語からから中心にある単語を予測することでベクトル化していきます。 このように、ある単語の意味は周辺の単語によって形成されるという考え方を分布仮説と呼びます。Wo

                            【Python】Word2Vecで単語の分散表現を体感する
                          • Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた - Qiita

                            Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた自然言語処理word2vecRNNAttention Attentionを理解するために、学習した事を整理します。 参考文献 ①「深層学習による自然言語処理」 講談社  坪井祐太 海野裕也 鈴木潤 著 ②「ゼロから作るDeep Learning2 自然言語処理編」 オライリー 斎藤康毅 著 ■RNN(recurrent neural network) 文献①によると、再帰ニューラルネットワーク(RNN)は可変長の入力列を扱うことに優れたネットワーク構造で、前の時刻の隠れ状態ベクトルと現時刻の入力ベクトル(または下層の隠れ状態ベクトル)を使って、現在の隠れ状態ベクトルを更新するとのこと。 う~ん、分かりにくいので絵にしてみました。 上図のxは入力、hは隠れ層です。時刻tで

                              Attentionを理解するためにRNN、Word2Vec、LSTM、Seq2Seq、Attentionの順に整理してみた - Qiita
                            • word2vecで「クソデカ」+「羅生門」を検証する - Qiita

                              ある月の暮方のでかいである。 どでかいののどでかいで雨やみを待っていた。 でかいどでかいのどでかいには、このどでかいのどでかいにどでかいもいない。 ただ、どでかいが、でかいどでかいでかいはありでかいでかいでかいである。 どでかいが、このどでかいのどでかいにはどでかいもいない。 でかいかと云うと、このどでかいどでかい、大阪には、大地震とかが棲む。 どでかいしまいには、引どでかいどでかいのずどでかいを、このどでかいへ持ってどでかいて、棄てて来ると云うどでかいさえでかいどでかい。 そこで、どでかいがどでかい無くなると、どでかいでもでかいを悪るがって、このどでかいのどでかいへは足ぶみをしずでかいによってけれどまったのである。 どでかい代りまたをでかいにけれどながら、ぼうっと、降るのどでかいのを見晴らしていた。 どでかいはどでかい、「どでかいが雨やみを待っていた」とどでかいいた。 しかし、どでかいは

                                word2vecで「クソデカ」+「羅生門」を検証する - Qiita
                              • ねこでもわかるWord2Vec入門 - Qiita

                                モチベーション 初めまして、pyaNottyと申します。初投稿です。 最近、MeCabやらkerasやらに触れる機会があり、せっかくなので何か自然言語処理にチャレンジしたいなと思いました。自然言語処理、とくにLSTMなどを用いた文章生成なんかでは、Word2Vecによる分散表現が利用されることが多いと聞きます。今回は、LSTMモデルに食わせることができる単語の分散表現を、Word2Vecで作ってみようと思います。 ねこ並みの知能しか持ち合わせていない筆者でも、なんとかできるくらい簡単です。 Word2Vecとは 単語をベクトルに変換するためのモデルのことです。 何か文章を使ってLSTMモデルとかを訓練する場合、生の文字列をモデルに食わせることはできません。ですので、文章を何らかの数値表現に変換する必要があります。例えば、「これはペンです」という文章の場合、['これは', 'ペン', 'です

                                  ねこでもわかるWord2Vec入門 - Qiita
                                • AmazonLinux2+python+Word2Vecで連想語辞書を作る - Qiita

                                  pythonとWord2Vecで連想語辞書を作成した際の作業記録を残します。コーパスにはWikipediaのDumpを利用させて頂いています。 前提 OSはAmazonLinux2、形態素解析エンジンのMeCabがインストール済であること。 ※ MeCabのインストールについては前回または他の方のインストール記事を参考にして下さい。 作業手順 pythonとpip、依存するライブラリのインストール $ sudo yum install -y python3 $ echo 'alias python=python3.7' >> ~/.bashrc $ source ~/.bashrc

                                    AmazonLinux2+python+Word2Vecで連想語辞書を作る - Qiita
                                  • Colaboratory上で「word2vecの学習」と「Tensorboardによる可視化」 - Qiita

                                    はじめに この記事では、Colaboratoryでword2vecの学習とTensorboardによる可視化を行ないます。 TensorBoardの出力結果はインターネット上で公開されてしまうので、オープンデータのみ使用するようしてください (公開せずにTensorBoardのPROJECTORを実装する方法をご存知の方がいらっしゃましたら教えてください) word2vecとTensorboardの説明は、行わないので別途学習してください Word2Vec:発明した本人も驚く単語ベクトルの驚異的な力 あらゆるデータを可視化するTensorBoard徹底入門 使用データ/行うこと word2vecの学習には、著作権が切れたためにフリーで公開されている青空文庫にある夏目漱石作の「吾輩は猫である」を使用します。 小説内の単語をword2vecで学習することで、コンピューターが正しく「吾輩」は「猫

                                      Colaboratory上で「word2vecの学習」と「Tensorboardによる可視化」 - Qiita
                                    • Amazon.co.jp: PyTorch自然言語処理プログラミング word2vec/LSTM/seq2seq/BERTで日本語テキスト解析! (impress top gearシリーズ): 新納浩幸: 本

                                        Amazon.co.jp: PyTorch自然言語処理プログラミング word2vec/LSTM/seq2seq/BERTで日本語テキスト解析! (impress top gearシリーズ): 新納浩幸: 本
                                      • Word2VecとEmbedding層について考察してみた

                                        Word2VecやEmbedding層について自身の理解が曖昧だったので、学習がてら自身の考察を示しながらまとめました。 分散表現 名前など物理的な計測が不可能な記号集合をベクトルに対応付けたものを分散表現(distributed representation)といいます。この変換操作は、トークンをベクトル空間に埋め込む操作であることから埋め込み(embedding)ともいわれます(一般的に自然言語処理の分野でトークンは単語であるため、単語埋め込み(word embedding)と呼ぶことが多い)。 Word2Vec Word2Vecとは、WordをVectorに変換するという意味で分散表現そのものを指すと解釈できますが、より狭義でCBOWやSkip-gramの2つのモデルを指すのが一般的です。勉強会等で登壇者の説明を聞いたり自身が説明したりするときはWord2Vecが分散表現そのものを指

                                          Word2VecとEmbedding層について考察してみた
                                        • BERT vs Word2Vec ~単語分散表現による同義語抽出~ - Qiita

                                          はじめに なんだかんだBERTを使ったことがなかった。 いまや、自然言語処理といえばBERTの世の中だというのに。 若者でなくなり、流行を追えず、Facebookはやっているが、InstagramやTiktokはやっていない、そんな自分…。 せめて仕事にしているデータ分析の世界では後追いでも流行を追うべきでは?そんな気持ちになった今日この頃。 ということで、事前学習済みモデルを使うとか、そもそも手持ちデータで自分で事前学習するとか、huggingfaceのtransformersでいろいろできるようになっておきたかったので触ってみた。 普通に触るだけでは味気ないので、単語分散表現を抽出し、cos類似度を計算して同義語抽出についてword2vecの結果と比較することに。 WordNetで定義された同義語と同じ単語をいくつ同義語として抽出できるか評価した。 word2vec、Transform

                                            BERT vs Word2Vec ~単語分散表現による同義語抽出~ - Qiita
                                          • BertとWord2vecを組み合わせて謎かけAIを作ってみた。 - Qiita

                                            お遊びアプリとして BertとWord2vecを組み合わせて謎かけAIを作ってみた。 どんなアプリ お題を入れると、謎かけを回答してくれるアプリ > python .\nazokake.py Please input odai : 利根川 2022-09-06 22:49:41.121694 「利根川」とかけて「出産」と説く その心は! どちらも「用水/羊水(ヨウスイ)」がつきものです 2022-09-06 22:49:44.241902 Please input odai : 野球 2022-09-06 22:51:30.649636 「野球」とかけて「システム」と説く その心は! どちらも「捕手/保守(ホシュ)」がつきものです 2022-09-06 22:51:33.327652 Please input odai : 銀行 2022-09-06 22:52:44.977923 「銀行

                                              BertとWord2vecを組み合わせて謎かけAIを作ってみた。 - Qiita
                                            • 言語モデルはどのように言葉を学習しているのか? 転機となった「word2vec」【土木×AI第25回】

                                              言語モデルはどのように言葉を学習しているのか? 転機となった「word2vec」【土木×AI第25回】:“土木×AI”で起きる建設現場のパラダイムシフト(25)(1/2 ページ) 連載第25回は、目覚ましい進化を続ける生成AIの理解を深めるため、言語モデルに用いる“ニューラルネットワーク”が、どのように言葉を学習しているのかを土木学会の最新研究を引用しながら探ります。 生成AIの発展はとどまるところを知りません。最近では、国立情報学研究所に大規模言語モデル研究開発センターが設立されるなど、官民挙げた取り組みも活発化しています※1。生成AIのさらなる利活用には、基盤となる言語モデルへの理解がますます求められます。では、人間の脳内にある神経細胞(ニューロン)のネットワークを機械学習モデルで模し、言語モデルに用いる“ニューラルネットワーク”は、どのように言語を学習しているのでしょうか? ※1 国

                                                言語モデルはどのように言葉を学習しているのか? 転機となった「word2vec」【土木×AI第25回】
                                              • Word2Vec使い倒しブック~Hello Worldから最近の研究成果まで~:もちっとカフェ

                                                --- 2022/9/7追記 技術書典13にあたって、内容量2倍&物理本になって帰ってきました! すでに初版の電子版をご購入済の方は技術書典サイトの本棚より2版がダウンロードいただけます。 --- 自然言語処理の定番手法となっているWord2Vecを使ってみたい初心者やちょっと手の込んだことをしてみたい中級者向けにWord2Vecを使い倒すべく、私個人の観点から可能な限り役立ちそうなTIPSを詰め込みました。 最近はもっぱらBERTやGPTシリーズの登場によってWord2Vecは過去の技術という印象があるかもしれません。 ですが、垢まみれになった今だからこそ、知見も溜まっており、安定して使えるようになったとも言えます。 そこで、私見を多分に含みますが、まとまった形でWord2Vecを使い倒すためのノウハウをまとめました。 1つ1つの内容は、どこかの記事などでみたことがあるものかもしれません

                                                  Word2Vec使い倒しブック~Hello Worldから最近の研究成果まで~:もちっとカフェ
                                                • 自然言語処理の分散表現(Word2Vec,fastText)の課題 : 新規事業のつくり方

                                                  単語分散表現とは、単語の意味をベクトルで表現することです。単語埋め込み(Word Embedding)とも呼ばれます。単語を100~300の次元数で表現することが多いです。 分散表現(+自然言語処理の主な手法も)は、単語の意味は周囲の単語で形成されるという分布仮説を前提にしています。 なので、Wikipediaなど大量のテキストデータ(コーパス)を学習させれば、単語の意味が表現できるということです。 例えばWord2Vecは、周辺の単語から中心語を推論する(逆に中心語から周辺の単語を推論する方法もあり)ことで、単語をベクトル表現しています。 コーパスを読み込ませるだけで学習できるので、実務的にも利便性の高い手法です。分散表現の学習済みモデルを公開している団体も多数あります。 単語分散表現の利用例:単語間の類似度計算 単語分散表現は、単語の意味をベクトル(数値)で表現できます。代表的な利用ケ

                                                    自然言語処理の分散表現(Word2Vec,fastText)の課題 : 新規事業のつくり方
                                                  • 自然言語処理の必須知識!Word2Vec とは?

                                                    Word2Vec とは Word2Vec は自然言語を数ベクトルで表現する手法の一つです。中でも、Word2Vec は単語をベクトルで表現する手法です。下図はそのイメージです。 テキストにベクトル表現を対応づける より正確には、Word2Vec は Mikolov らが 2013 年の論文 (Efficient Estimation of Word Representations in Vector Space, ベクトル空間における単語の表現の効率的推定, https://arxiv.org/abs/1301.3781) で発表した一連の手法です。 モデルとして CBoW 、Skip-Gram の二種類、最適化戦略として階層的ソフトマックス、負例サンプリングの二種類を含みます(この記事では詳しい説明を省略します)。 「単語がベクトル空間で表現される」というのはイメージが湧きにくいかもしれ

                                                    • Word2vec - Wikipedia

                                                      Word2vecは、単語の埋め込みを生成するために使用される一連のモデル群である。これらのモデルは、単語の言語コンテキストを再構築するように訓練された浅い2層ニューラルネットワークであり、大きなコーパスを受け取って一つのベクトル空間を生成する。このベクトル空間は典型的には数百次元からなり、コーパスの個々の単語はベクトル空間内の個々のベクトルに割り当てられる。コーパス内で同じコンテキストを共有する単語ベクトルは、ベクトル空間内の近くに配置される[1]。 Word2vecは、Googleのトマス・ミコロフ率いる研究者チームによって2013年に作成および公開され、特許を取得した。アルゴリズムは他の研究者によって分析され、説明された[2][3]。Word2vecアルゴリズムを使用して作成された埋め込みベクトルには、潜在的意味分析などの以前のアルゴリズム[1]と比べていくつかの利点がある。 CBoW

                                                      • GitHub - oegedijk/keras-embeddings: Example of how to use entity embeddings (similar to word embeddings such as word2vec, but then generalized for any categorical feature) in a Keras model.

                                                        by: Oege Dijk Neural Network models are almost always better for unstructured data (e.g. image data). However for structured data, they often still underperform tree based models (random forrests, boosted trees, etc) they often also don't play as nice with categorical variables as tree models do. However an exciting new methodology to work with categorical data is entitiy embeddings. These are sim

                                                          GitHub - oegedijk/keras-embeddings: Example of how to use entity embeddings (similar to word embeddings such as word2vec, but then generalized for any categorical feature) in a Keras model.
                                                        • 行動履歴をもとに協調フィルタリングとWord2Vecでレコメンドしてモデルの精度を評価する

                                                          レコメンド関連の勉強のために使えるデータを探していたところ、Kaggleで丁度良いデータセットがあったので、今回はユーザの行動履歴をもとにアイテムをレコメンドする方法とそのレコメンドモデルを評価する方法を説明します。 使用するアルゴリズムは古典的なアイテムベース協調フィルタリングと、割と新しい手法であるWord2Vec(アイテムを分散表現するのでitem2vecとも呼ばれます)です。 Word2Vecを使ったレコメンドの実装は、リクルートの講演資料を参考にしました。 ここで、ユーザの行動履歴とは、ECサイトで例えるとユーザが商品を閲覧/購買した履歴のことを意味します。 また、レコメンドモデルの評価にはオンライン評価とオフライン評価の2つがありますが、今回はオフラインでの評価を実装しました。 ※2019/12/3にオフライン評価指標の実装と可視化に関して記事を書いています。

                                                            行動履歴をもとに協調フィルタリングとWord2Vecでレコメンドしてモデルの精度を評価する
                                                          • 🎍QDくん🎍Python x 機械学習 x 金融工学 on Twitter: "SONYがYouTubeに無料公開している、系列データモデリングのコース。説明が丁寧でわかりやすい。RNN, LSTM, seq2seq, attention, Transformer, word2vec, BERTなど盛り沢山の… https://t.co/i5GSLIaLEo"

                                                            SONYがYouTubeに無料公開している、系列データモデリングのコース。説明が丁寧でわかりやすい。RNN, LSTM, seq2seq, attention, Transformer, word2vec, BERTなど盛り沢山の… https://t.co/i5GSLIaLEo

                                                              🎍QDくん🎍Python x 機械学習 x 金融工学 on Twitter: "SONYがYouTubeに無料公開している、系列データモデリングのコース。説明が丁寧でわかりやすい。RNN, LSTM, seq2seq, attention, Transformer, word2vec, BERTなど盛り沢山の… https://t.co/i5GSLIaLEo"
                                                            • 【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning

                                                              ▼テーマ 単語をベクトルで表す単語分散表現の中で最も有名な word2vec の紹介です。 word2vec は4種のアルゴリズムの総称です。 それぞれを丁寧に説明していきます。 ▼関連プレイリスト Deep Learning の世界 https://www.youtube.com/playlist?list=PLhDAH9aTfnxKXf__soUoAEOrbLAOnVHCP 自然言語処理シリーズ https://www.youtube.com/playlist?list=PLhDAH9aTfnxL4XdCRjUCC0_flR00A6tJR ▼目次 00:00 OP ==== 1.単語分散表現 ==== 02:06 1-1 単語分散表現って何? 03:56 1-2 分散表現が得られると何が便利なのか? ==== 2.word2vec ==== 08:31 2-1 引用論文紹介

                                                                【深層学習】word2vec - 単語の意味を機械が理解する仕組み【ディープラーニングの世界 vol. 21】#089 #VRアカデミア #DeepLearning
                                                              • BERTおよびWord2Vecで文の類似性を確認する

                                                                BERTおよびWord2Vecで文の類似性を確認する TL;DR 文の類似性を確認する方法としてBERTとWord2Vecを比較します。 文全体の類似性ではなくトークン単位での比較です。 BERTとWord2Vecによるベクトル化にはtext-vectorianを使用します。 ソースコード from text_vectorian import SpBertVectorian tokenizer_filename = '../bert-japanese/model/wiki-ja.model' vectorizer_filename = '../bert-japanese/model/model.ckpt-1400000' bert_vectorian = SpBertVectorian( tokenizer_filename=tokenizer_filename, vectorizer_f

                                                                1

                                                                新着記事