サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
CES 2025
alaginrc.nict.go.jp
東北大 乾・鈴木研究室が公開している解答可能性付き読解データセットを利用し、既に公開されている利用可能な日本語BERTモデルとNICTが公開する2つの日本語BERTモデルの比較実験を行いました。解答可能性付き読解データセットに含まれる56,651件の質問・解答・文書の組に対して付与された「文書の読解によって質問に答えることができるかどうか」のスコアが2以上の事例から正解を抽出し、それ以外の事例は正解無しとして、与えられた質問に対して文書中から回答となる単語列の特定を行い、参考文献と同様に正解との完全一致の割合(EM)と正解の単語列に対する再現率と精度から求められるF1スコアの平均(F1)の2つの評価尺度で結果を比較しました。(ただし、訓練・開発・テストの分割等、実験設定の詳細は必ずしも参考文献とは一致していません) NICTが公開するモデルとの比較に利用したBERT事前学習モデルは下記の6
概要 このページでは、日本語Wikipediaを対象に情報通信研究機構 データ駆動知能システム研究センターで事前学習を行ったBERTモデルをクリエイティブ・コモンズ 表示 4.0 国際ライセンス (CC BY 4.0)のもとで公開しています。 BERTモデル [1] の学習では、バッチサイズやステップ数を増やすことで性能が向上することが報告されています [2]。そこで本ページのモデルでは、[2] のRoBERTa-500Kと同等の計算量となるよう、ステップ数を [1] と同様に100万に保ちつつ、バッチサイズを [1] の16倍の4,096にして学習を行いました。 作成したBERTモデルの評価として、NICTで作成した (fine-tuning用) 学習データと評価データ (これらのデータは大規模Web情報分析システムWISDOM X、対災害SNS情報分析システムDISAANA、災害状況要
契約書の入手及び作成方法等につきましては、右下の「ALAGIN会員」よりログイン頂く事で、右メニューより「資源の入手・契約方法」「言語資源申請書・契約書」がご覧になれます。 (A-1)文脈類似語データベース 100万語の名詞に対して、約1億ページのWeb文書上での文脈が類似している名詞を類似度とともに順に最大500個列挙したものです。(今年度中にさらに大規模な約6億ページのWebデータをもとに構築し直し、語彙数も200万まで増強する予定です) 例(数字は類似度) 「ルパン三世」の文脈類似語(アニメタイトルが上位に集まっている) ルパン3世 (-0.229) 名探偵コナン (-0.259) 宇宙戦艦ヤマト (-0.265) ケロロ軍曹 (-0.28) 鉄腕アトム(-0.282) ガッチャマン (-0.287) デビルマン (-0.289) サイボーグ009 (-0.294) 新世紀エヴァンゲ
概要¶ RaSCは,国立研究開発法人 情報通信研究機構 情報分析研究室が開発した,ユーザプログラムを高速・高並列に実行可能にするフリーのミドルウェアです. (参考文献) 田仲 正弘, 大竹 清敬, 鳥澤 健太郎, 田浦 健次朗, RaSC: 高速なストリーム通信をサポートする言語処理プログラムの高速化・高並列化ミドルウェア, 言語処理学会第20回年次大会, 2014. [発表スライド] RaSCは,既存の形態素解析器や係り受け解析器などのプログラムを大量のWebページに高速に適用することを念頭に開発されたものであり,多種のユーザプログラムを複数起動し,それらを相互に接続して分散並列実行させるためのミドルウェアです.処理の例としては,一つのファイルやストリームにある複数件の入力に対して,ユーザプログラムを複数起動し,マルチコアCPUを活用して並列実行したり,複数の計算機上で分散実行することを
上位下位関係抽出ツール Version1.0 : Hyponymy extraction tool 目次 上位下位関係抽出ツールとは 新着情報 注意事項 ダウンロード 動作環境 実行 機械学習用モデルファイル 実行結果 オプション引数 ディレクトリ構成 実行コマンド入力例 抽出上位下位関係数 参考文献 Copyright 上位下位関係抽出ツールとは 上位下位関係抽出ツールは,Wikipediaダンプデータ(XMLファイル)から機械学習を使って上位下位関係となる用語ペアを数百万対のオーダーで抽出できるツールです. 上位下位関係とは,"XはYの一種(一つ)である"と言えるXとYの関係を言います. Xのことを下位語,Yのことを上位語と呼びます. 別の言い方をしますと,上位下位関係は「上位概念ー下位概念」または「概念ーインスタンス(具体例)」の関係を持つ語の対となります. 抽出できる上位下位関係の
目次 関係知識を利用する全文検索システム QE4Solr とは 新着情報 動作環境 実行に必要なツール ダウンロード パッケージのダウンロード パッケージ構成 パッケージの展開 検索の事前準備 必要なデータ(検索対象文書、辞書) インデックスの作成 検索システム起動 検索方法 検索インターフェース 検索の仕組み 分散検索 著作権&ライセンス 関係知識を利用する全文検索システム QE4Solr とは 関係知識を利用する全文検索システム QE4Solr とは、異表記辞書や同義語辞書、単語間意味的関係知識等を用いてクエリを自動拡張する全文検索システムです。大量の異表記、同義語、意味的関係知識によりクエリ拡張することで、検索漏れの防止や、意外だが有用な情報の発見が期待できます。また、索引付けと検索の並列処理が可能で、Webアーカイブ等の大規模な文書データも効率的に処理できます。異表記辞書や同義語辞
日本人1200人による英語コーパス・The NICT JLE (Japanese Learner English) Corpus English Page 本コーパスについて The NICT JLE Corpusは、日本語を母語とする英語学習者1,281名分の英語インタビューテスト(株式会社アルクによるStandard Speaking Test)における発話を書き起こしたデータを中心に構成されています。話し言葉の学習者コーパスとしては、世界最大級の規模のデータを収録しています(書き起こしテキストのデータのみで、音声データは含まれておりません)。 本コーパスは、国立研究開発法人情報通信研究機構が株式会社アルクの協力のもと、構築しました。 ※本Webサイトからダウンロードできるコーパスは、2004年既刊の書籍『日本人1200人の英語スピーキングコーパス』に付属のコーパスと同様の内容です。一
本資源の説明書(契約後は、「負担・ トラブル表現リスト(Version 1.0)説明書 trouble_README.euc」という名前で同じ内容のファイルがダウンロードできます) ファイル容量: 約148KB。 (A-4)上位語階層データ すでに公開中のWikipediaからの上位下位関係抽出ツール(http://alaginrc.nict.go.jp/hyponymy/index.html)を日本語Wikipedia (2007-03-28版)に適用し、得られた上位下位関係に現れた上位語、約69,000名詞句を階層化して、階層を構成する名詞句のすべてに、その指示対象が十分に特定されるかどうかのタグ付けをおこなったものです。例えば、「成分」という語はそれだけでは指示対象が特定されず、「食品の成分」などというように表現を補わないと適切な上位語とは呼べません。本データによって、Wikiped
目次 意見(評価表現)抽出ツールとは 高度言語情報融合フォーラム(ALAGIN)で公開されているモデルデータと辞書データについて 新着事項 ご利用にあたっての注意事項 ダウンロード ツールの実行環境 意見(評価表現)抽出ツールの動作確認方法 モデルデータの生成 このパッケージに含まれているディレクトリ・ファイル 解析精度 参考文献 著作権&ライセンス 付録 意見(評価表現)抽出ツールとは 本ツールは、国立研究開発法人情報通信研究機構 旧知識処理グループ 情報信頼性プロジェクトによって開発されたもので、1行につき1文が書かれたテキストファイルを入力として、機械学習を使って何らかの事象に対する意見や評判および評価(以下、これらをまとめて「評価情報」と呼びます)がテキスト中のそれぞれの文に存在するかどうかの判定を行い、その文に評価情報が存在すると認められた場合、以下の情報を出力するツールです。
目次 日本語Wikipediaエントリの係り受けデータベースとは 新着情報 ダウンロード 利用方法 利用条件 リンク 公開しているその他のオープンソースツール・言語資源 高度言語情報融合フォーラム(ALAGIN)言語資源サイト 日本語Wikipediaエントリの係り受けデータベースとは 本データベースは、日本語の大量(約6億ページ、約430億文、クロール時期は 2007年5月19日から11月13日)のWeb文書から、Wikipediaの記事のタイトル(エントリ)の内、二文節以上のもの(例:「三保の松原」「風と共に去りぬ」)に関する係り受けとその頻度を抽出したものです。通常の形態素解析・係り受け解析では、これらのエントリが複数の文節に分割されてしまうため、これまで高度言語情報融合フォーラム(ALAGIN)で公開してきた日本語係り受けデータベース (Version 1.0)では、これらのエント
●○お知らせ○● ログインするには右の「ALAGIN会員」のログインフォームからお願い致します。 各資源の契約書の入手及 び記載方法等につきましては、右の「ALAGIN会員」よりログイン頂く事で参照できます。 ALAGINフォーラムへご入会希望の方は「フォーラム参加のご案内 」をご覧ください。
オープンソースソフトウェア 上位下位関係抽出ツール (https://alaginrc.nict.go.jp/hyponymy/index.html) 多言語形態素解析システム(特許等調整中) 多言語係り受け解析システム(CNP)(https://alaginrc.nict.go.jp/cnp/index.html) 意見(評価表現)抽出ツール(https://alaginrc.nict.go.jp/opinion/index.html) 関係知識を利用する全文検索システム(https://alaginrc.nict.go.jp/qe4solr/index.html) 並列類似文字列検索システム(https://alaginrc.nict.go.jp/para-simstring/index.html) 高速化・高並列化ミドルウェア RaSC(https://alaginrc.nict.g
本資源の説明書(契約後は、「負担・ トラブル表現リスト(Version 1.0)説明書 trouble_README.euc」という名前で同じ内容のファイルがダウンロードできます) ファイル容量: 約148KB。 (A-4)上位語階層データ すでに公開中のWikipediaからの上位下位関係抽出ツール(http://nlpwww.nict.go.jp/hyponymy/index.html)を日本語Wikipedia (2007-03-28版)に適用し、得られた上位下位関係に現れた上位語、約69,000名詞句を階層化して、階層を構成する名詞句のすべてに、その指示対象が十分に特定されるかどうかのタグ付けをおこなったものです。例えば、「成分」という語はそれだけでは指示対象が特定されず、「食品の成分」などというように表現を補わないと適切な上位語とは呼べません。本データによって、Wikipedia
English Page 本コーパスについて 『Wikipedia日英京都関連文書対訳コーパス』は、高性能な多言語翻訳、情報抽出システム等の構築を支援することを目的に作成された日英対訳コーパスです。国立研究開発法人情報通信研究機構がWikipediaの日本語記事(京都関連)を英語に翻訳し、作成しました。 特徴 人手翻訳による約50万文対を収録した精密かつ大規模なコーパスです。 高性能な多言語翻訳、情報抽出システムの研究・開発等にご活用いただけます。 翻訳の過程(一次翻訳→流暢さ改善のための二次翻訳→専門用語チェックの3段階)が記録されています。 訳文が精緻化されていく過程を観察できるため、翻訳支援ツールの開発、人手翻訳における誤り分析等にもご活用いただけます。 京都に関する内容を中心に、日本の伝統文化、宗教、歴史等の分野をカバーしています。 各種観光情報の英訳や通訳ガイドのための用語集作成
Introduction CNP is a highly accurate dependency parser for Chinese. This package includes: Modifications of the MSTParser (http://sourceforge.net/projects/mstparser), such as: support for Carreras et al. (2007)'s higher-order decoding support for subtree features described in Chen et al. (2009) Especially, CNP has the following features: High accuracy due to the use of the features based on subtr
このページを最初にブックマークしてみませんか?
『ALAGIN 言語資源・音声資源サイト - ホーム』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く