エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
はじめに 自然言語処理をやってみようと思い、twitterからテキストを集めました。 tweepyを使って過去の... はじめに 自然言語処理をやってみようと思い、twitterからテキストを集めました。 tweepyを使って過去のツイートを取得しましたが、前処理に手間取ったので、その前処理方法を紹介します。 困ったこと ・絵文字の処理でemojiモジュールを使ったが、取り除ききれなかったものがあった unicodeで\uf353や\uf605など ・改行をコードを取り除くと文章がつながってしまう 例 楽しかった いい一日だった → 楽しかったいい一日だった やったこと ・「絵文字を取り除く」ではなく「英数字・日本語のみ取り出す」とする ・改行コードを読点"。"に置き換える twitterテキストでの改行は文の区切りを意味するため 実装 絵文字の除去 reモジュールを使って1文字ずつ英数字・日本語かどうかを判断し、英数字・日本語であれば残す、とします。1行目は半角英数記号、ひらがな・カタカナ、漢字、句読点な