Python による「スクレイピング & 自然言語処理」入門

Python による
「スクレイピング & 自然言語処理」入門
Twitter: @salinger001101
戸嶋龍哉
2017/03/24 データ解析入門〜グラフ分析処理・スクレイピング〜【FOUND IT PROJECTセミナー #6】 1
参考資料（サンプルコード）：
https://github.com/Salinger/found_it_project_06_crwl/blob/master/src/python_crawler_nlp.ipynb

自己紹介
•氏名：戸嶋龍哉（とじまたつや）
•DATUM STUDIO 株式会社にて
データエンジニアとして、さまざまな業種
の企業におけるデータ分析活用基盤の
構築、テキストマイニングによる分析、
機械学習アルゴリズムの整備に従事。
データ分析を活用し1円でも多くの収益を
上げるべく、がんばっている。
データ解析入門〜グラフ分析処理・スクレイピング〜【FOUND IT PROJECTセミナー #6】 2
著書
2017/03/24

目次
1. はじめに
2. クローラーとは？
3. 自然言語処理とは？
4. 解析のための下準備
5. クローラーによるデータの取得
6. テキスト解析
7. おわりに
8. 付録

目次
1. はじめに
7. おわりに
8. 付録

セミナー概要
•クローラーとはWeb上のデータを自動的に収集するための道具
です。クローラーを活用することで、担当者が手動で行っていた
Web情報収集の効率化、また自社だけでは入手できないさまざまな
データを取得し自社データと結合することで新たな示唆を得ること
が可能になります。
•今回のセミナーでは初心者を対象にクローラーを作成し対象サイト
のデータを収集、テキスト解析を行い、分析結果を得るまでの
一連の流れについて、Python で使用するライブラリ、解析手法を
交えて解説いたします。
※本発表は所属する組織とは一切関係がありません

今回やること
•今回は対象ページとして日本酒物語日本酒ランキング(人数)
とそれに紐づく各銘柄の詳細を収集し、解析を行います。
2. クローラーによるデータの収集
◦ TFIDF によるレビュー中の特徴的な形容詞の抽出
◦ 単語ベースのクラスタリング

進め方
• 基本的にはスライドの記載内容に従って進めていきますが、
サンプルコードを見ながら進めるとより理解しやすいです。
• 手元に端末のある方は別途コードを記載したページを開いて
おいてください。
参考資料（サンプルコード）：
https://github.com/Salinger/found_it_project_06_crwl/blob/master/src/python_crawler_nlp.ipynb

目次
1. はじめに
7. おわりに
8. 付録

質問１
「クローラー」って単語
セミナー前に聞いたことあった方
手を上げていただけますか？

質問２
「クローラー」
実際に作ったことがある方

そもそもクローラーって何？
• クローラー（crawler）
◦ インターネット上にあるWebサイト、テキスト、画像、
動画など、さまざまなデータを収集するプログラムのこと。
• スクレイピング, クローリング（crawling）
◦ クローラーを動かして、データを収集すること。
インターネット上の
コンテンツ
クローリング
クローラー
データ

クローラーのメリット
• 担当者が手動で行っていた Web からの情報収集の自動化。
◦ 情報収集にかかっていた時間の大幅削減が可能に。
◦ 人間には不可能な量の情報を収集することが可能に。
• データの自動的な蓄積が可能。
◦ 一定期間で消えてしまうデータの長期間に渡る分析が可能に。

データ分析で用いられる
クローラーシステムの例 (Azure 環境)
Virtual Machines
（クローラー用）
SQL Database Virtual Machines
（Tableau Server用）
Web ブラウザ
ユーザー
結果
アクセステキスト
画像
動画
etc. データ加工
条件
結果
ビューの表示
インターネット上の
コンテンツ

クローラー作成に関わる技術
(クローラー本体)
• プログラミング言語:
◦ 主に Python で作成。後の分析作業が楽。
• ライブラリ
◦ Requests： Python の HTTP ライブラリ。
◦ Scrapy： Web スクレイピングフレームワーク。
◦ PhantomJS：コマンドラインで動作する仮想ブラウザフレームワーク。
JavaScript を使用したサイトの取扱も可能になる。
◦ BeautifulSoup： HTML のパーサ。HTML の構造を効率よく扱える。

目次
1. はじめに
7. おわりに
8. 付録

質問１
「自然言語処理」って単語
セミナー前に聞いたことあった方

質問２
「自然言語処理」で
何らかの解析を行ったことがある方

自然言語処理の分野 (概要)
• 人間が日常的に使っている言葉（自然言語）をコンピュータ
に処理させるための技術。
• 基礎技術
◦ 形態素解析：文を形態素（言語で意味を持つ最小単位）に分解し、
品詞などを判別する。
◦ 構文解析：文の構造の解析。修飾-被修飾の関係推定など。
◦ 語義曖昧性解消：複数意味を持つ語句の意味の特定。
◦ 照応解析：代名詞の推定、省略された語句の補完。

自然言語処理の応用範囲
 自動要約文生成
 情報抽出
 情報検索
 機械翻訳
 質問応答システム
（QAシステム）
 光学文字認識（OCR）
 音声認識・合成
 自然言語生成
 かな漢字変換
 文書校正
 固有表現抽出
etc.

自然言語処理の応用範囲
 自動要約文生成
 情報抽出
 情報検索
 機械翻訳
 質問応答システム
（QAシステム）
 光学文字認識（OCR）
 音声認識・合成
 自然言語生成
 かな漢字変換
 文書校正
 固有表現抽出
etc.
今回は
このあたり！

目次
1. はじめに
7. おわりに
8. 付録

Python の導入
• Python 初心者の方は Python 3 の最新版を導入すればよい。
◦ 現時点の最新版は Python 3.6
• Anaconda を利用しての導入が楽なのでおすすめ。
◦ インストーラーをダウンロードして実行するだけ。
https://www.continuum.io/downloads
• 開発環境は Jupyter Notebook がおすすめ。
◦ 今回見てもらってる HTML のような感じでコードを書ける。

ライブラリの導入
• 例えば Mac なら Jupyter Notebook 上から次のコマンド
を実行すれば導入できる。
1. MeCab の導入
2. クローラー関係のライブラリの導入
!brew install mecab mecab-ipadic
!pip install mecab-python3
!conda install -y html5lib
!conda install -y requests
!conda install -y BeautifulSoup4

使用するライブラリの読み込み

定数の設定

目次
1. はじめに
7. おわりに
8. 付録

クローラーによるデータ取得の流れ
1. 対象ページのHTMLの取得。
2. 取得対象情報が含まれている部分のタグの特定。
3. 取得対象情報のパース。
4. 結果の保存。

対象ページ
このページの
で囲まれた
部分から順位、
銘柄、蔵元名、
銘柄の詳細ページ
のURLを取得する。

Request を使用してページ取得

中身の確認

BeautifulSoup を利用して
テーブル要素の取得
• <table> 〜 </table> の部分を抜き出す。
• 各行要素 <tr> 〜 </tr> の部分を抽出

行要素のパース

データフレームへの変換

CSVとして保存

詳細ページ（レビュー部分）
 コメント一覧から次の要素
を取得する。
1. 投稿ID
2. タイトル
3. 投稿日時
4. ユーザ名
5. テキスト
※ 流れとしては同じなので省略。
詳細はサンプルコードを参照。

ここまでのまとめ
• クローラーを活用することにより…
◦ 銘柄のリスト情報（銘柄マスタ）を取得できた。
◦ 銘柄マスタに紐づく各詳細ページ（200ページ文）の
コメント一覧を取得できた。

目次
1. はじめに
7. おわりに
8. 付録

TFIDF によるレビュー中の
特徴的な形容詞の抽出
• この解析では、あるドキュメント中における特徴的な単語（特徴語）
の抽出を行う。
元データ
MeCab による
単語への分割・抽出
TfidfVectorizer
による変換
BoW 形式への変換
TFIDFスコア算出
銘柄別
単語TFIDF
スコア文書行列への変換

Bag-of-Words (BoW) 形式への変換
• 集めたデータを各種統計処理で扱うためには、行列形式への変換が必要。
• 文章に単語が含まれているかどうかのみを考え、単語の並び方などは
考慮しないモデル。一番シンプルなモデルは単語があれば 1、なければ
0 となる。単語の出現回数を (TF: Term Frequency) 使う場合もある。
• 今回は Term Frequency を採用。
すもももももももものうち (1)
↓
[すもも, も, もも, も, もも, の, うち] (2)
↓
{すもも: 1, も:2, もも: 2, の: 1, うち:1} (3)
MeCab による変換
CountVectorizer による変換

文書行列への変換
• 各文書に含まれる単語を列に、文書を行、単語の出現回数を要素とした
行列形式に変換する。
• 例：以下のテキストの文書行列への変換
◦ (a) 「すもももももももものうち」
◦ (b) 「料理も景色もすばらしい」
◦ (c) 「私の趣味は写真撮影です
列のラベルは単語の出現の早い順に
[すもも, も, もも, の, うち, 料理, 景色, 素晴らしい, 私, 趣味, は, 写真撮影, です]
とすると、文書行列は下記のようになる。
[[1,2,2,1,1,0,0,0,0,0,0,0,0], # (a)
[0,2,0,0,0,1,1,1,0,0,0,0,0], # (b)
[0,0,0,1,0,0,0,0,1,1,1,1,1]]# (c)

TFIDFの計算
• TFIDF = TF ✕ IDF
• TF：文書内における単語の出現頻度。
◦ 「ある文書中である単語が何回出現したか」
◦ 1つの文書に多く出現する単語ほど重要度が高くなる。
• IDF：(ある単語が含まれている文書数 / 全ての文書数) の逆数
◦ 多数の文書に出現する単語ほど重要度が低くなる。
TF: ある文書 d に出現した単語 w の回数
DF: 単語 w が含まれている文書の数
N: 全ての文書数

TFIDFの意味
• TFIDF が大きな値になる。
→ 文書内である特定の単語が多く出現し、かつその単語は
他の文書ではほとんど出現しない。
• 例
◦ 「私」：各文書内における出現回数は多いが、多くの文書に
出現するので重要度は低い。
◦ 「特許」：「特許」を話題の中心にしている特定の文書内には
多く現れ、一般的な文書には現れないので重要度
が高い。

TfidfVectorizer を用いた変換
• CountVectorizer（from scikit-learn）
◦ BoW 形式への変換、文書行列への変換、単語と列番号の
対応付けなどの作業をまとめて行うことができる。
• TfidfVectorizer （from scikit-learn）
◦ 前述の CountVectorizer による行列化と TFIDF の計算を
同時に行うことが出来る。
◦ 今回はこれを利用する。

対象品詞の単語群を返す関数を定義

全銘柄のコメントを読み込んで
単語単位に分割・対象品詞の単語のみ抽出

銘柄別に単語をまとめる

TFIDFの計算

各銘柄 TFIDF スコア上位5件の
単語を抽出

銘柄マスタと結合して結果の確認

TFIDF 計算結果の保存

単語ベースのクラスタリング
• レビュー内に含まれている単語の傾向が似ている銘柄
＝特徴が似ている銘柄と仮定して解析してみる。
元データ
MeCab による
単語への分割・抽出
CountVectorizer
による変換
BoW 形式への変換
StandardScaler
による標準化
クラスタ
番号
文書行列への変換
PCA による次元圧縮
コサイン類似度
基準の階層型
クラスタリング

単語の抽出
• 今回は名詞 / 動詞 / 形容詞を使用

CountVectorizer による文書行列化

StandardScaler による標準化
• 今回のようにレビューの件数が大きく異なる場合、
数値を標準化すると良いクラスタリング結果が得やすい。
• 各要素から平均を引いて、標準偏差で割る（Zスコア）。
• この変換を行うと、平均が 0 で標準偏差・分散が 1 になる。

PCA による次元圧縮
• 単語行列は疎な状態。次元圧縮を行うことで、
より効率が良く、直感に近いクラスタリング結果を得られる。
• 今回は 7252 次元（単語数）から 30次元に圧縮。

クラスタリング実行

銘柄マスタと結合し結果の確認

結果の出力

ここまでのまとめ
• スクレイピングしてきた文書から特徴語が抽出できた。
• スクレイピングしてきた文書間で似ている物同士を
まとめることができた。

目次
1. はじめに
7. おわりに
8. 付録

今回カバーできなかった点
• 形態素解析用辞書の改善
◦ デフォルトのものだと「山田錦」が「山田」＋「錦」に分割されてしまう。
また連続する名詞の扱い方を改善するためにも辞書を工夫する必要がある。
• 否定語の扱い
◦ 美味しくない → 美味しい＋ないと分割される。
このままでは「美味しい」としてカウントされてしまう。
• 数値を含んだ単語の取扱
◦ 例えばアルコール度数を表すような数値、精米歩合の数値などが
うまく扱えていない。
• ノイズとなるような単語のカット
◦ 例えば「Wow very oishii Sake ! 」などのテキストが含まれているが、
このようなものが含まれていてもあまり有益な結果を得られない。

まとめ
• Python を用い、クローラーを作成することで
対象サイトのデータを自動的に収集できた。
• テキスト解析を行い、特徴語の抽出、類似文書の
クラスタリングの結果を得ることができた。

目次
1. はじめに
7. おわりに
8. 付録

参考文献
• 日本酒物語日本酒ランキング（人数）： http://www.sakeno.com/followrank/
• MeCab: http://taku910.github.io/mecab/
• Anaconda: https://anaconda.org
• sckit-learn: http://scikit-learn.org
• Pandas: http://pandas.pydata.org
• Jupyter notebook: http://jupyter.readthedocs.io/en/latest/index.html
• サンプルコード:
https://github.com/Salinger/found_it_project_06_crwl/blob/master/src/python
_crawler_nlp.ipynb

Python による 「スクレイピング & 自然言語処理」入門

More Related Content

What's hot

Viewers also liked

Similar to Python による 「スクレイピング & 自然言語処理」入門