自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
最新号
選択された号の論文の22件中1~22を表示しています
巻頭言(査読無)
一般論文(査読有)
  • 坂井 優介, 上垣外 英剛, 林 克彦, 渡辺 太郎
    2024 年 31 巻 4 号 p. 1427-1457
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    事前学習済み言語モデル (Pre-trained Language Models; PLM) は事前学習時に獲得した言語理解能力や知識によって,既知の事象に対して推論を行うことができる一方,未知の事象に対しては PLM の推論能力のみで解を導き出す必要がある.しかし言語モデルの推論能力のみを評価するには,PLM が事前学習時に記憶した知識と獲得した推論能力を完全に切り分けた分析が必要となり,既存のデータセットで測定するのは,事前学習時の記憶が作用してしまうため困難である.本研究では PLM の推論能力の分析に,知識グラフ上の既知の関係から欠損している未知の関係を予測するタスクである知識グラフ補完 (Knowledge Graph Completion; KGC) を対象とする.KGC において埋め込みに基づく従来手法は推論のみから欠損箇所を予測する一方,近年利用されているPLM を用いた手法では事前学習時に記憶したエンティティに関する知識も利用している.そのため KGC は記憶した知識の利用と推論による解決との両側面を有することから,PLM が記憶する知識の影響を測るのに適したタスクである.我々は KGC に対し知識と推論による性能向上を切り分けて測定するための評価方法及びそのためのデータ構築手法を提案する.本研究では PLM が事前学習時にエンティティに関する知識の記憶により推論を行っている箇所を明らかにし,PLM に備わっている未知の事象に対する推論能力も同時に学習していることを示唆する結果が得られた.

  • 小笠 雄也, 梶原 智之, 荒瀬 由紀
    2024 年 31 巻 4 号 p. 1458-1486
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    表層が大きく異なる言い換えはデータ拡張に有益である一方,その生成は難しいことが知られている.本論文では,デコーダにサンプリングを適用した折り返し翻訳により生成する多様な疑似言い換えから表層が大きく異なる言い換えペアを抽出することで学習コーパスを構築し,所望の言い換えを生成可能なモデルを実現した.さらに意味および表層の類似度を指定するタグを入力文の先頭に付けるというシンプルな仕組みにより,これらの類似度を制御する.対照学習および事前学習済み言語モデルの pre-fine-tuning においてデータ拡張を行い,提案手法の有効性を確認した.さらに (1) 言い換えの適切な類似度は downstream task に大きく依存すること,(2) 様々な類似度の言い換えが混在すると downstream task に悪影響を与えることを明らかにした.

  • 凌 志棟, 相田 太一, 岡 照晃, 小町 守
    2024 年 31 巻 4 号 p. 1487-1522
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    時代とともに意味が変化する単語をコーパスから自動的に検出・分析する研究は,自然言語処理の研究者から注目を集めている.英語やドイツ語などの言語では,時期の異なる学習用コーパス(通時コーパス)の公開や評価用単語セットの作成が進んでいるため,盛んに研究が行われているが,日本語では不十分である.そこで本研究では,日本語の評価用単語セット JaSemChange を作成した.作成にあたり,近代から現代までを扱う 3 つの通時コーパスを使用し,対象単語の用例ペアをサンプリングした.19 個の対象単語に関する合計 2,280 の用例ペアに対して 4 人の専門家が意味類似度をアノテーションし,それらを用いて単語の意味変化度合を算出した.その後,本評価セットを用いて,単語ベクトルに基づく意味変化検出手法の性能評価を行った.頻度に基づく手法をベースラインとし,タイプベースとトークンベースの代表的な手法の性能を比較し,それぞれの手法の特徴を議論した.本研究で作成した,意味変化度合が付与された単語セット,および用例ペアに対するアノテーションスコアは GitHub で公開した.

  • An Wang, Junfeng Jiang, Youmi Ma, Ao Liu, Naoaki Okazaki
    2024 年 31 巻 4 号 p. 1523-1544
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    Aspect sentiment quad prediction (ASQP) analyzes the aspect terms, opinion terms, sentiment polarity, and aspect categories in a text. One challenge in this task is the scarcity of data owing to the high annotation cost. Data augmentation techniques are commonly used to address this issue. However, existing approaches simply rewrite texts in the training data, restricting the semantic diversity of the generated data and impairing the quality due to the inconsistency between text and quads. To address these limitations, we augment quads and train a quads-to-text model to generate corresponding texts. Furthermore, we designed novel strategies to filter out low-quality data and balance the sample difficulty distribution of the augmented dataset. Empirical studies on two ASQP datasets demonstrate that our method outperforms other data augmentation methods and achieves state-of-the-art performance on the benchmarks.

  • 大鹿 雅史, 山田 康輔, 笹野 遼平, 武田 浩一
    2024 年 31 巻 4 号 p. 1545-1562
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    スポーツの試合の放送中,試合に関する多くのコメントがXに投稿されている場合,これらの投稿を読むことで大まかな試合経過の把握が可能である.しかし,投稿の内容は多岐にわたり,これらの投稿から瞬時に試合経過を把握することは容易ではない.そこで,本論文ではサッカーの試合に着目し,試合経過を瞬時に把握できるように X への投稿からスポーツ速報を生成するシステムの構築に取り組む.構築するシステムは,大規模言語モデル T5 をベースに,特定の試合に関連する X への投稿を入力し,一定時間毎に速報,あるいは生成しないことを示す “NaN” を生成するモデルを基本とする.しかし,単純なモデルでは速報の生成数が少ないという問題と同じイベントを指す速報文が複数生成される冗長性の問題という二つの問題が生じる.そこで,生成判定器を利用して速報生成数を制御する機構および過去の速報の内容を考慮して冗長性軽減を行う機構を組み込んだモデルを提案する.

  • 石原 祥太郎, 高橋 寛武, 白井 穂乃
    2024 年 31 巻 4 号 p. 1563-1597
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    研究者や実務者にとって事前学習済みモデルの利活用が一般的になる中,実運用上の大きな課題として時系列性能劣化の監査が挙げられる.特に事前学習済み言語モデルは事前学習や推論にかかる時間と費用が大きいため,効率的な監査と再学習の仕組みの検討は重要である.本研究では学習コーパス内の単語の通時的な意味変化を計算することで,事前学習済み言語モデルや単語分散表現の時系列性能劣化を監査する枠組みを提案し,モデルの再学習に関する意思決定を支援する.最初に 2011~2021 年の日本語・英語のニュース記事を用いて,学習コーパスの期間が異なる RoBERTa や word2vec のモデルを構築し,時系列性能劣化を観測した.実験では,学習コーパス内の単語の通時的な意味変化から計算できる指標「Semantic Shift Stability」が小さくなる際,事前学習済みモデルの性能が時系列で大きく劣化しており,監査の用途での有用性を確認できた.提案する枠組みには意味が大きく変化した単語から原因を推察できる利点もあり,2016 年の米大統領選や 2020 年の新型コロナウイルス感染症の影響が示唆された.指標を計算するソースコードはhttps://github.com/Nikkei/semantic-shift-stability で公開した.

  • 久田 祥平, 若宮 翔子, 荒牧 英治
    2024 年 31 巻 4 号 p. 1598-1634
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    デジタルプラットフォーム上の誹謗中傷に対する社会的関心が高まっており,その性質の理解と対策に向けたデータセットや自動検出の研究が進められている.既存のデータセットでは,誹謗中傷の主観的な性質とクラウドソーシングなど非専門家によるアノテーションを実現するために,タスクを単純化や主観的な判断に依存することで,実際問題との乖離や社会・文化的文脈の考慮不足といった課題があり,社会科学の専門知識を活用しながら,誹謗中傷問題を個々の社会に合わせて調整するアプローチが必要である.そこで本論文では,日本の裁判例を基に誹謗中傷検出に向けた日本語データセットを提案する.我々のデータセットは,オンライン上の発言に対して,名誉権や名誉感情といった法的権利と,その権利に対する裁判所の判断を誹謗中傷のラベルとして利用している.さらに,自動検出手法の検証によって,実際上の問題とのギャップを明らかにし,課題点に対する検討を行っている.この研究は,誹謗中傷の問題に実際の社会問題に即したデータセットの構築により,配慮されたコンテンツモデレーションの実践を目指すとともに,他のドメインからの専門知識の活用に関する議論の基盤を提供することを目指している.

  • 角森 唯子, 東中 竜一郎
    2024 年 31 巻 4 号 p. 1635-1664
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    ユーザに長く利用される雑談対話システムを構築するためには,ユーザとシステムが良好な関係を築くことが重要である.我々は,任意のユーザ情報を自然に対話に活用することで,ユーザと良好な関係を構築するパーソナライズ可能な雑談対話システムの実現を目指す.本研究では,パーソナライズ可能な雑談対話システムの実現に向けて,対話文脈への適切性を保持しつつ,現在のトピックに関係なく任意のユーザ情報をシステム発話に取り込むためのコーパスを構築した.構築したコーパスを用いてモデルを学習し,モデルが任意のユーザ情報と対話文脈を踏まえたシステム発話を生成できることを確認した.さらに,学習したモデルをもとに雑談対話システムを構築し,ユーザとのインタラクティブな対話における任意のユーザ情報と対話文脈を踏まえた発話の有用性を確認した.

  • 隂山 宗一, 乾 孝司
    2024 年 31 巻 4 号 p. 1665-1690
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    本論文では,文書内に出現する地名やランドマーク等の地理的位置属性をもつ言及に対し,その地理的位置の特定のしやすさを表す指標として地理的特定性指標を提案し,文書ジオロケーション課題への有効性を検証する.まず,地理的特定性を構成する要素として,地理的曖昧性および名称専有性の 2 つの概念を定義した後,既存のエンティティリンキング手法から着想を得た,Wikipedia データに基づく指標値の算出方法について述べる.その後,既存の文書ジオロケーション手法に地理的特定性の指標値情報を取り込んだ文書ジオロケーション実験を実施した.実験の結果,地理的特定性の構成要素である地理的曖昧性および名称専有性のそれぞれが文書ジオロケーション課題において有効であること,また,これら両方を組み合わせて利用することも有効であることを確認した.

  • Runa Yoshida, Takuya Matsuzaki
    2024 年 31 巻 4 号 p. 1691-1716
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    This study clarifies how the domain adaptation of bidirectional encoder representations from transformers (BERT) contributes to the syntactic analysis of mathematical texts and their limitations. Experimental results show that the domain adaptation of BERT is highly effective, even with a relatively small amount of raw in-domain data. This improves the accuracy of the syntactic dependency analysis by up to four points without any annotated in-domain data. By analyzing the improvement, we found that numerous errors involving the mathematical expressions have been corrected. Errors related to structures that are not frequent in the out-domain fine-tuning data were difficult to improve by only the domain adaptation of BERT. This study also revealed that the effectiveness of BERT depends on the representation of the mathematical expressions in the input. Among several different representations of mathematical expressions, the highest dependency accuracy was achieved using a simple method where an entire mathematical expression is replaced with a dedicated special token.

応用システム論文(査読有)
  • 石原 祥太郎, 村田 栄樹, 中間 康文, 高橋 寛武
    2024 年 31 巻 4 号 p. 1717-1745
    発行日: 2024年
    公開日: 2024/12/15
    ジャーナル フリー

    本稿では,日本語ニュース記事の要約支援を目的とする,ドメイン特化事前学習済みモデルを用いた編集支援システムについて報告する.具体的には実社会のシステム要件を整理し,既存技術を組み合わせて開発した編集支援システムを,有用性を評価するための検証項目と共に提示する.第一に,特有の文体を再現する目的で「日経電子版」のニュース記事を用いて T5 の事前学習とファインチューニングを行い,学習コーパスのサイズが小さいにもかかわらず,見出しと 3 行要約の生成タスクで一般的なモデルを上回る性能を確認した.次に,発生し得る幻覚の特徴を明らかにするために,構築したドメイン特化 T5 の出力を定量的・定性的に分析した.最後に,クリック率を予測するドメイン特化 BERT も含め,編集システム全体の有用性を議論した.

学会記事(査読無)
後付記事(査読無)
feedback
Top