[B! mecab] gayouのブックマーク

gayou id:gayou

mecabに関するgayouのブックマーク (108)

${{author_name}}$

{{{comment_expanded}}}

{{label}}

{{#is_bookmark}}リスト{{/is_bookmark}}{{^is_bookmark}}リンク{{/is_bookmark}}

${{author_name}}$
{{author_name}}{{created}}
{{ #comment }}{{ comment }}{{ /comment }}
- {{ label }}

${{author_name}}$

{{{comment_expanded}}}

{{label}}

{{#is_bookmark}}リスト{{/is_bookmark}}{{^is_bookmark}}リンク{{/is_bookmark}}

オープンソースの中国語辞書を使ってMeCab用中国語辞書を作る｜旅ニート
自然言語処理の基本的な入力データは単語です。英語は単語境界がスペースなので処理が簡単です。しかし日本語や中国語などの言語は単語境界が曖昧ですので、まずはテキストを分割するステップが重要になります。日本語の場合は幸いにも優れた辞書が多数ありますが、中国語の場合はそうでもないようです。ここでは、オープンソースの中国語辞書（CC-CEDICT）をベースに中国語向けMeCab辞書を作りました。ただしこの辞書は文法的知識に基づかない、コストを機械学習（CRF）で学習していない辞書になります。辞書の変換まずはCEDICTをスクリプトでCSVファイルに変換します。例えば次のようなスクリプトを書きます。 import re pattern = re.compile(r"^(.*?) (.*?) \[(.*?)\] /(.*?)$") # surface -> csv (surface, left id
gayou 2022/11/19
mecab

中国語
リンク
日本語テキストをワードクラウドで可視化する
GMOアドマーケティングのT.Oです。今回は日本語テキストをワードクラウドで可視化します。開発環境として、Google Colaboratory（以下、Colabと略）を利用します。またワードクラウドを生成するためのPythonライブラリであるWordCloudを使用します。 0.ワードクラウドとは？ワードクラウドはテキストに含まれるキーワードの出現頻度にあわせて文字の大きさを変えて視覚化したものです。どのような単語がよく使われているか視覚的にとらえやすくなります。 1.MeCabのインストール Colabに日本語を形態素解析するためのツールであるMeCabをインストールします。 !apt-get -y install mecab libmecab-dev mecab-ipadic mecab-ipadic-utf8 !git clone --depth 1 https://git
gayou 2022/02/22
やってみたけどめちゃくちゃ簡単だった。

python

mecab

google colab
リンク
[MeCab+NEologd]形態素解析ソフトのMacへのインストール・実行方法 - Qiita
MeCabとは MeCabはオープンソースの形態素解析エンジンで、奈良先端科学技術大学院大学出身、現GoogleソフトウェアエンジニアでGoogle 日本語入力開発者の一人である工藤拓[1][2]によって開発されている。名称は開発者の好物「和布蕪（めかぶ）」から取られた。参照元：Wikipedia:MeCab ほうほう。 NEologdとは mecab-ipadic-NEologd は、多数のWeb上の言語資源から得た新語を追加することでカスタマイズした MeCab 用のシステム辞書です。 Web上の文書の解析をする際には、この辞書と標準のシステム辞書(ipadic)を併用することをオススメします。参照元：mecab-ipadic-neologd/README.ja.md 公式的にはこんな説明。 mecab-ipadic-NEologd は形態素解析用の辞書ではなく「単語分かち書き」用
gayou 2022/02/22
mecab
リンク
Pythonで形態素解析して韓国語学習 - Qiita
はじめに私はK-POPが好きでよく聴くのですが、やはり日本語や英語の曲と比べると歌詞の意味がよく分からなくて十分に楽しめないという課題を抱えていました。一から学習書を用いて勉強するのが王道かと思いますが、通常の学習書に載っている会話や単語を見てもあまりスッと入ってこなくて学習のモチベーションを保つのに苦労しました。そこで、K-POPの歌詞から単語を抽出して覚えるために韓国語の形態素解析と単語別の翻訳をしてみようと思いました。韓国語学習者の方にとって以外は少々読みづらい内容となっているかもしれませんがご容赦ください。利用技術プログラミング言語: Python 形態素解析: mecab-ko, open-korean-text Pythonライブラリ: KoNLPy, python-mecab-ko 翻訳: GASのLanguageApp KoNLPyとは https://konl
gayou 2021/12/09
自分もmecab-koを利用しているので親近感。

mecab
リンク
Huggingface Transformers 入門 (10) - 日本語の感情分析｜npaka
「Huggingface Transf ormers」による日本語の感情分析方法をまとめました。・Huggingface Transf ormers 4.1.1 前回 1. Huggingface Transf ormers「Huggingface Transf ormers」は「自然言語理解」と「自然言語生成」の最先端の汎用アーキテクチャ（BERT、GPT-2など）と何千もの事前学習済みモデルを提供するライブラリです。今回は以下の事前学習済みモデルを使います。 2. Huggingface Transf ormersのインストール「Anaconda」でPython 3.7の仮想環境を作成して以下のコマンドを実行します。 $ pip install torch torchvision $ pip install transf ormers[ja]3. Huggingface Transf ormer
gayou 2021/01/11
https://twitter.com/polm23/status/1348525337001431040 によると、大半のコマンドは実行不要とのこと。

自然言語処理

mecab
リンク
形態素解析の結果を利用してTF法により特徴抽出をする - Qiita
はじめに本記事では、文書分類器を実装するための特徴抽出方法としてのTF(Term Frequency method)法について解説する。 1. 形態素解析文書分類では、文書内の単語の情報を利用する。日本語は英語のように単語の区切りが明示された分かち書き言語ではなく、非分かち書き言語であり、そのため、文書内の各文を単語に分割する必要がある。文を単語に分割し、各単語の品詞を推定することを形態素解析という。ここでは、オープンソース形態素解析ソフトウェア MeCab(めかぶ)を使う. • http://taku910.github.io/mecab/ 2. 特徴抽出分類問題を扱う際、一般に、データ中の、分類に利用する情報のことを特徴量と呼び、この特徴量をデータから抽出する作業を特徴抽出と呼ぶ。文書の分類では、文書中の単語が特徴量として利用される。文書内の各単語の出現頻度は、しばしば、単
gayou 2020/12/28
mecab

python

形態素解析
リンク
形態素解析器 kagome v2 をリリースした - 押してダメならふて寝しろ
概要ホント誰得でもないのは重々承知していますが、思い立って形態素解析器 kagome v2 をリリースしました。とはいっても、だいたいの機能は今ある kagome でも実装済みで、今さら変更してもどうよ・・・という感じではあります。なので、モチベーションを維持するのが非常に難しくて、だらだらと時間だけがかかってしまいました。折角作ったのでリリースノートです。 TL;DR; v2 で実現した事辞書の分離 / バージョン管理辞書毎に異なる素性項目の扱いの共通化韓国語辞書対応辞書の分離辞書を別リポジトリに分離しました。これにより、長年(?)懸案だった辞書のバージョン管理が可能になりました。go.mod で指定すれば、どのバージョンの辞書を利用しているかがわかります。また、これにより、これまで kagome.ipadic のような単独辞書を利用するだけのためのライブラリを別に切
gayou 2020/08/10
韓国語用の辞書もあるんだ、と思ってたらmecab-ko-dicベースのようだ。

形態素解析

mecab

go
リンク
TIS、自然言語処理で企業名認識を行うための辞書「JCLdic」を無償公開
TISインテックグループのTIS株式会社（本社：東京都新宿区、代表取締役会長兼社長：桑野徹、以下：TIS）は、自然言語処理で企業名認識を行うための辞書「JCLdic」（日本会社名辞書）を無償公開し、辞書を生成するコードをオープンソースソフトウェア（OSS）として公開することを発表します。・「JCLdic」公開ページ：https://github.com/chakki-works/Japanese-Company-Lexicon （利用は上記のページからダウンロード）「JCLdic」は800万以上の企業名を収録している企業名辞書です。国税庁が公開している法人情報(2019年12月27日まで)の商号に対して、別名生成手法を適用してTISが作成しました。同一企業に対する複数名称を含むため、自然言語処理を行う際に「TIS」「ティアイエス」「テイアイエス」など同じ企業を指す企業名の表記揺れを吸
gayou 2020/04/21
形態素解析

辞書

mecab
リンク
2019年末版形態素解析器の比較 - Qiita
形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。（SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです） MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました（Janomeというものがありましたがmecab-python3の方が高速です）。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un
gayou 2019/12/18
うん。やっぱりmecab使いやすい。”形態素解析業界の有名な難問”あたりは単純に辞書次第ではないでしょうか。

mecab

形態素解析
リンク
紅葉スポットと紅葉状況をツイートから推定する - にゃみかんてっくろぐ
ひとり開発 Advent Calendar 2019 10日目の記事です。成果物: ソーシャル紅葉見頃情報動機: 紅葉情報サイトの「見頃」表示が信用できない解説: サービス構成ツイート収集紅葉スポットの自動抽出紅葉状況の推定 Webサービス検証: 紅葉状況の推定結果高尾山東福寺課題まとめ成果物: ソーシャル紅葉見頃情報 Webサービス「ソーシャル紅葉見頃情報」を作りました。動機: 紅葉情報サイトの「見頃」表示が信用できない以下の写真は、複数の紅葉情報サイトで「紅葉状況：見頃」だった時の御岳昇仙峡（山梨県）の様子です。正直、見頃はまだ先だと感じました。Twitterを調べても同様の感想を持った方が多いようで、甲府市観光課も「全体的に3分〜4分付き」と表現されている状況でした。 🍁紅葉情報🍁 本日の昇仙峡の様子です！少しずつ紅葉が進み、全体的に3分〜4分付き
gayou 2019/12/10
mecab
リンク
php-mecabインストール - Qiita
# tar xvzf mecab-0.996.tar.gz # cd mecab-0.996 # ./configure --enable-utf8-only --enable-mutex ### エラーが出る場合は ./configure --with-charset=utf8 --enable-utf8-only のオプションに変更 # make # make check # make install # tar xvzf mecab-ipadic-2.7.0-20070801.tar.gz # cd mecab-ipadic-2.7.0-20070801 # ./configure --with-charset=utf8 # make # make install
gayou 2019/12/09
php

mecab
リンク
mecab-koで簡易的な韓日機械翻訳を作る - たくあんメモ
本件はひとり開発 Advent Calendar 2019 - Qiita 7日目にエントリーしています。はじめに私は海外野球のニュース記事を読みたいがために、自分用の機械翻訳を作ってます。現在は韓国語のみで、あくまで野球ニュース用です。まあ精度はよくないですが、野球用語や独特の表現を訳すところにフォーカスしており、後述しますがmecab-koという韓国語用の形態素解析ツールを利用しています。 https://bitbucket.org/eunjeon/mecab-ko/ 2月にとりあえず作って以降、定期的に辞書をいじっては訳を改善、、また辞書をいじったり、追加したりして訳を改善している最中です。正直言って、ルールベースはやるもんじゃないなと思いました経緯私は海外野球の情報（特に順位表や試合速報・結果）をよく見ていて、主に以下のサイトをよく見ます。サイト国/地域
gayou 2019/12/07
書いた。

機械翻訳

mecab
リンク
AWS EC2に日本語形態素解析システムMeCab（IPA辞書 + 新語辞書：mecab-ipadic-neologd）と日本語係り受け解析器J.DepPで日本語を処理する環境をつくる
LINE Bot API、Facebook Messenger Platform が公開されてIT業界は一気に Bot ブームですが、一番の特徴である「ユーザーとの会話をベースに様々なサービスを提供する」ことを実現するためには、少なからず日本語を解析する処理が必要になってきます。そこで今回は、AWS の EC2 に日本語を処理するための環境を構築します。（mecab-ipadic-neologd をインストールする際にメモリに1.5G以上の空きがないとビルドが落ちてしまうため、EC2のSmall 以上のインスタンスで行ってください）使用したインスタンスのイメージですが、『Amazon Linux AMI 2016.03.1 (HVM), SSD Volume Type - ami-29160d47』を使用しました。管理者権限になるインストールと設定は管理者権限で行い
gayou 2019/12/01
t2.microインスタンスでswapを設定すればneologdをインストールできるのでは。

mecab
リンク
mecabの事、何も分かってないエンジニアが、coreserverやxserver上でmecabをutf8で使えるようにした件。あとLaravelに組み込み。 | aoi.ooo
gayou 2019/10/26
ここまで試行錯誤できる方であれば、AWSとかGCPみたいなクラウドを使って好きなようにサーバを構築した方が早い気が。

mecab
リンク
mecabへの辞書追加（left-id.def でのエラー） - Screaming Loud
今回はmecabへの辞書追加でハマったのでそのメモとして残します．ほとんどhttp://fukushimu.blog.shinobi.jp/Entry/76/を参照しました． /usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u wikipedia.dic -f utf8 -t utf8 wikipedia.csv mecabをローカルにコンパイルした人ならそこを指定します． http://mecab.googlecode.com/svn/trunk/mecab/doc/dic.htmlに書いてあるユーザ辞書の登録という項目にコマンドについては詳しく書いてあります．しかし以下のようなエラーがでました． context_id.cpp(88) [it != left_.end()] c
gayou 2019/10/12
mecab
リンク
古典中国語(漢文)の形態素解析・係り受け解析のためのudkanbun | yasuokaの日記 | スラド
思うところあって、古典中国語(漢文)の形態素解析・係り受け解析をUniversal Dependenciesでおこなうpython3モジュールudkanbunを、PyPIからリリースした。UDPipe・MeCab用の言語モデルを、モジュールに含めておいたので % python3 >>> import udkanbun >>> lzh=udkanbun.load() >>> s=lzh("不入虎穴不得虎子") >>> print(s) # text = 不入虎穴不得虎子 1 不不 ADV v,副詞,否定,無界 Polarity=Neg 2 advmod _ Gloss=not|SpaceAfter=No 2 入入 VERB v,動詞,行為,移動 _ 0 root _ Gloss=e
gayou 2019/09/02
漢文の辞書

mecab
リンク
現代・古典日本語の形態素解析・係り受け解析のためのunidic2ud | yasuokaの日記 | スラド
私(安岡孝一)の8月21日の日記で公開したudkanbunを改造して、UniDicのMeCab辞書と、UDPipeのjapanese-gsdモデルが読めるようにした。これをさらに「Chamame2UD.py」と機能統合して、手元に辞書がある場合はローカルで高速に、ない場合はWeb APIを叩くことで低速に、動作するよう書き直してみた。unidic2udというpython3モジュールとして、PyPIからリリースしたので、ぜひ使ってみてほしい。インストールは、とりあえずは % python3 >>> import unidic2ud >>> ja=unidic2ud.load("gendai") >>> s=ja("笑顔で彼は座った") >>> print(s) # text = 笑顔で彼は座った 1 笑顔笑顔 NOUN 名詞-普通名詞-一般 _ 5
gayou 2019/09/02
mecab
リンク
MeCabと中古和文UniDicで源氏物語を形態素解析する。 : 今日から人生本気出す
1月20 MeCabと中古和文UniDicで源氏物語を形態素解析する。カテゴリ:NLP留学中古和文UniDicをつかおうぞ！生きてます。音楽と英語のことしか殆ど書いてこなかったお前が突然何書いとるねんって話ですが唐突に技術系の話をし始めます。2018年はアーカイブをモットーにしていきます。ちゃんとGithubも使って作ったものどんどんオープンにしていきます。そのうち。 Q.技術系のことならQiitaに書けば？ A.うるさい。 Q.ならせめて新しいブログ作れば？ A.うるさい。はい論破。ということで本題です。「いやあ、今日は寒いなあ。お出かけするのも嫌になるから今日は家で源氏物語でも形態素解析しようかなぁ」って時が日本人なら年に数回くらい誰にでもあると思うんですよ。僕もあります。じゃあ一番シンプルな方法は何かなあと考えるとMeCabに中古和文UniDicを辞書として使ったやつか
gayou 2019/07/06
古文向け形態素解析辞書

自然言語処理

mecab

形態素解析
リンク
自然言語処理のためにMeCabを入れるのに疲れたのでCOTOHA APIを使った - Qiita
提供API一覧ここからみれます。構文解析日本語テキストの構造と意味を解析します。固有表現抽出人名や地名などの固有表現を抽出します。照応解析「あれ」「彼/彼女」「同〇〇」「その〇〇」等の指示語を検知し、指し示す対象を特定します。キーワード抽出文章からキーワードを抽出します。類似度算出２つの文章の類似性を数値化し出力します。文タイプ判定挨拶や同意、約束などの発話行為のタイプを判定します。同時に、叙述文、命令文、質問文などの文タイプを出力します。ユーザ属性推定文章からユーザの年代、職業などの属性を推定します。言い淀み除去ユーザからの音声入力時に含まれる言い淀みを除去します音声認識誤り検知音声認識処理後のテキストに対して、認識ミスの恐れがある単語を検知・抽出します。感情分析文章作成時の書き手の感情をポジティブまたはネガティブで判定します。さらに文章に含ま
gayou 2019/06/04
mecabのインストールはめんどくさくないけど、COTOHAで形態素解析以外のことが便利に使えるのがよさそう。

mecab
リンク
MeCabの形態素解析の結果から正規表現を使って品詞列を抜き出すmecabpr
MeCabの形態素解析の結果から、正規表現を使って品詞列を抜き出すためのパッケージmecabpr(mecab-pos-regexp)を作成しました。概要キーフレーズ抽出などのタスクにおいて、MeCabの形態素解析した文字列の中から「形容詞に続く名詞」や「任意の長さを持つ名詞の系列」といった特定のパターンを持つ品詞列を取り出したいことがあります。そのようなパターンを正規表現の記法を用いて表現し、一致する品詞列を抜き出すためのパッケージを作成しました。ソースコード https://github.com/yagays/mecabpr 使い方インストール mecabprはpipを使ってインストールできます。
gayou 2019/04/16
よさげ。mecab-koの解析結果でも適用できるだろうか。

mecab
リンク
1 2 3 4 5 6 次のページ