サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
CES 2025
www-tsujii.is.s.u-tokyo.ac.jp
日時 2011年3月18日 (金) 15:00~16:30 会場 工学部2号館213講義室 演題 「計算機と言葉:言語処理研究の40年をふりかえって」 日時 2011年3月18日 (金) 18:00~20:00 (17:30受付開始) 会場 学士会館 210号室 (東京都千代田区神田錦町 3-28) (会費等詳細に関しましては後日改めてご連絡致します。) 参加登録 フォームよりご登録ください。 (参加登録は必須ではありませんが、懇親会への参加者数を把握するため、事前登録へのご協力をお願い致します。) お問い合わせ 辻井潤一教授最終講義および懇親会事務局 tsujii-last-lecture _at_ is.s.u-tokyo.ac.jp ( _at_ を@に置き換えてください。) リンク 東京大学大学院情報理工学系研究科コンピュータ科学専攻 辻井研究室
概要 自然言語処理分野においてトップカンファレンスと言われるNAACL HLT 2010,ACL 2010で発表された論文の中から,参加者の投票によって厳選した論文を読みます. 勉強会の参加者は,各自1~2本の論文を担当し,全体で30本程度の論文の発表を聞きます. 第1回目は東京大学辻井研内部での開催でしたが,今回は研究室の枠を超え,東京近郊の様々な研究室(8研究室)の学生・研究者の方にご参加頂きます. このイベントを通じて,研究者間の活発な情報交換・意見交換・交流が行われ,今後の研究に活かされることを期待しています. スケジュール 10月6日(水)
www-tsujii.is.s.u-tokyo.ac.jp/~matubara
mecab-0.96 http://mecab.sourceforge.net/#download から mecab-0.96 をダウンロード、インストールしてください。 大きく違わなければ、別のバージョンでもいいと思います。 ただしバージョン間で辞書の互換性はない場合がある [2] ので、 複数のマシンで使う場合は、できるだけ揃えてください。 なお、32 bit / 64 bit マシンでのバイナリ辞書の互換性はありません。 mecab-ipadic-2.7.0-20070801 http://mecab.sourceforge.net/#download から mecab-ipadic-2.7.0-20070801 をダウンロード、インストールしてください。 この直前(+直前いくつか?)のバージョンのmecab-ipadicには読みに関するバグがあり、コーパス中での読みの頻度が辞書に反
www-tsujii.is.s.u-tokyo.ac.jp/~hillbig
全ての部分文字列を考慮した文書分類 岡野原 大輔 † 辻井 潤一 †‡§ † 東京大学情報理工学系研究科コンピュータ科学専攻 ‡ SORST, 科学技術振興事業団 § School of Informatics, University of Manchester { hillbig, tsujii }@is.s.u-tokyo.ac.jp 本稿では,全ての部分文字列が素性として利用される文書分類モデル,及びその効率的な学習,推定手法を提案す る.文書分類に有効な部分文字列は,単語と異なる場合や,署名やテンプレートなど,非常に長くなる場合が少な くない.しかし,部分文字列の種類数は文書長の二乗に比例するため,それらを素性として直接用いて学習する ことは,計算量的に困難だった.本稿では,テキスト長に比例する個数のみ存在する極大部分文字列に関する統 計量を扱うことで,有効な部分文字列を漏れなく
超高速テキスト処理のための ゕルゴリズムとデータ構造 東京大学情報理工学系研究科* 岡野原 大輔 [email protected] NLP2010 チュートリゕル 2010 3/8@東京大学本郷キャンパス * 2010年4月から所属が (株)プリフゔードンフラストラクチャーになります。 内容 • 背景 – 自然言語処理と機械学習 • オンラン学習 – 教師有/無, 正則化 • 疎ベクトル々文字列データ構造 – 特徴情報の格納、全部分文字列情報 • 乱択化ゕルゴリズム – Hash Kernel, Randomized SVD 背景 大規模自然言語処理と機械学習 背景 • 利用可能な言語資源の急激な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ~1010 語 – c.f. Penn TreeB
本ウェブサイトは現在工事中です.ソースコード公開は10/24頃を予定しています. 概要 Miniseは最小限必要な機能をサポートした非常にコンパクトな検索エンジンです.検索対象の文章に対し索引を構築し,検索クエリに対する全文検索を行うことができます. 索引の種類として逐次検索,転置ファイル,N-gram,接尾辞配列をサポートしています.また検索結果の取得については定義済みのスコア以外にユーザー定義のスコアを用いたランキングを行うことができます. 主な利用用途として、小〜中規模の検索向けまた,教育用,研究用目的に使われることを想定されております. ダウンロード Miniseはフリーソフトウェアです.修正BSDライセンスに従って本ソフトウェアを使用,再配布することができます. 2009-10-24: Minise 0.01 リリース予定 2009-10-21: ホームページ公開 使い方
SBMの推薦アルゴリズム 2009/09/13 第3回SBM研究会@東京工業大学 大岡山キャンパス (株)Preferred Infrastructure 岡野原 大輔 発表内容 • 会社紹介 / 自己紹介 • はてブの関連エントリ – Bayesian Sets • 大規模レコメンデーション• 大規模レコメンデーション – Locality Sensitive Hashで2000万件 数ms – エコは大卲だと も思います 会社紹介 (株)Preferred Infrastructure • PFI – 元 Purely Functional Infrastructure • 2006 3月 – メンバーは学厛の同勡、コンテストでの半 • 代表 勽勜 • メンバー 14名 (+ インターン 5名), エンジニア厾92% 代表 勽勜 • メンバー 14名 (+ インターン 5名), エン
大規模データを基にした 自然言語叀 2009/3/13 SIGFPAI @学習院大 自然言語叀 岡野原大輔 東京大学情報 工学 研 科 コンピュータ科学専攻 辻井研 [email protected] 背景 • 匏用可能な言語資源の急 な拡大 – ブログ, 掲示板, 商品情報, レビュー – Wikipedia, Google N-gram Corpus ( 1010 語) – 従来の言語資源 Penn treebank ( 106語)– 従来の言語資源 Penn treebank ( 10 語) • より多くのデータ⇒ も向上 – 統計的機械翻訳 [Brants+, EMNLP 07] • 言語資源の の対数で翻訳 は線形に上昇 – 博卝 有学習による ラベリング [Suzuki+, ACL 09] – 単語の類似 計算 [柴田+, NLP 09] 発表の概要 • 大
背景 ウェブやメールのような大量の生テキストが与えられたとき、 分類 を行ってデータの見通しをよくしたい、ということはよくあります。 自動的な文書の分類を行う際、とりえる手段は教師あり学習と教師なし学習に分かれます。 教師なし学習を用いる利点は、人的なコストをあまりかけずに良い分類器を作れる可能性があることです。 教師あり学習では、比較的少ない数(たとえば数百)の文書に対して事前に分類ラベルを振っておき、それに対して機械学習の手法を適用し、 その学習結果を使ってそれ以外の大量(たとえば数万、数百万)の文書を分類しようとします。教師あり学習は多くの言語処理タスクで成功していますが、事前にラベルを振るために必要な人的コストが大きいという問題があります。 一方、教師なし学習では、事前に分類ラベルを振ったデータセットを作ることはしません。 教師なし学習の一種である文書クラスタリングの場合は、データ
Japanese Introduction Tx is a library for a compact trie data structure. Tx requires 1/4 - 1/10 of the memory usage compared to the previous implementations, and can therefore handle quite a large number of keys (e.g. 1 billion) efficiently. A trie data structure supports exact matching and common prefix matching, which are used for natural language processing etc. Tx uses Level-Order Unary Degree
English 概要 ohmmは隠れマルコフモデルにおいて,Online EMアルゴリズム[1]を用いて学習するためのライブラリです.大規模なデータを利用した学習に対応しており数十万語規模の学習データを利用した学習を行うことができます.また学習結果を他用途で利用できるような形で出力することができます. ダウンロード ohmmはフリーソフトウェアです.BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. ohmm-0.01.tar.gz: HTTP 更新情報 2009-05-19: ohmm 0.01 0.01をリリースしました 使い方 ソースコードで配布しています。インストール方法は以下の通りです。 >configure >make >sudo make install として使ってください。プログラムohmmが作成されます ohmmは各行に1例ずつ単語列が書か
このページは、2009年度夏学期・自然言語処理特論のページです。 第1回(2009/4/13): スライド 第2回(2009/4/20): スライド 第3回(2009/4/27): スライド 第4回(2009/5/11): スライド
www-tsujii.is.s.u-tokyo.ac.jp/~yoshinag
あまり役に立たない emacs lisp のコード。あるいは、新しいコードを書いて obsolete になったコード。 Contents .emacs.el のバイトコンパイルをし忘れる バッファ移動を簡単に こんがらがったバッファのソート keyboard-quit で連続実行する種類のコマンドの結果を元に戻す kill-ring はテキスト属性を保存しなくていい フレームのサイズと位置を初期設定に戻す yank 時に次の yank 候補を minibuffer に表示 対応する括弧にジャンプ プログラムでデバッグのprint文を挿入 ispell で LaTeX 文書などを校正するときに固まらないようにする [Emacs 21] ミニバッファでプロンプトの扱いがおかしい 複数のネットワーク環境で Meadow を使いたい Cygwinなどの外部アプリと組み合わせて: 開いているファイル
www-tsujii.is.s.u-tokyo.ac.jp/~tsujii
国際計算言語委員会(ICCL:永久会員), 国際計算言語学会(ACL :副会長:2005, 会長:2006), 言語処理学会(ANLP: 顧問), アジア太平洋機械翻訳協会(AAMT 、 会長:2000-2005, 理事: 1996-), 国際機械翻訳協会(IAMT. 会長:2003-2005, 理事:1995-)、アジア言語処理学会連合(AFNLP、副会長:2005-2007, 会長:2007-) 自己紹介 東京大学大学院情報理工学系研究科・コンピュータ科学専攻の教授で、計算言語学と自然言語処理が専門。同時に、英国マンチェスター大学の教授をハーフタイムで兼任。 京都大学工学電気工学科を卒業(1971)、同大学大学院工学研究科修士過程を修了(1973)後、同大学助手(1973-1979)、助教授(1979-1988)として質問応答システム、機械翻訳、言語理解の研究に従事。この間、フランス
オンラインデモ公開中 English page 目次 はじめに Enju のインストール Enju の使い方 デモとウェブインタフェース マニュアルなど 生命科学文献用の解析モデル 参考文献 はじめに Enju は英語の構文解析器です.HPSG理論に基づく文法[1-7]と高速な構文解 析アルゴリズム[8-11]により,高速かつ高精度な構文解析を行い,構文構造お よび述語項構造を出力します.文の意味を扱うことが必要である高度な自然言 語処理アプリケーション,例えば情報抽出,自動要約,質問応答などで特に有 用です. この構文解析器の主な特徴は以下のとおりです. 高精度かつ深い解析: 構文構造だけでなく述語項構造も出力する ことができ,新聞記事や生命科学文献に対しては90%程度の精度で解析する ことができます. 高速な解析: デフォルトの設定で一文平均約500ミリ秒(たいていの Penn Tre
L1正則化について 岡野原大輔 東京大学辻井研 D2 2008/8/5@奥村研 目次 • L1正則化の性質 – Laplace事前分布によるMAP – Representor Theorem (L2との違い) • L1の最適化⼿法 – 差分表現 / OWLQN / Multiplicative Update Grafting • L1によるアプリケーション例 教師有り学習のおさらい • ⼊⼒x∈Rm から出⼒yへの写像を求める – y∈{-1,+1}: ニ値分類 y∈{1…k}: 多値分類 – y∈r1× r2× …×rt ri∈{1…k}:構造出⼒分類 • 写像のモデルとして線形識別器を使う – w∈Rm モデルパラメータ(重みベクトル) – Φ(x,y)∈Rm : x, yから決定される素性ベクトル – y*=argmaxywTΦ(x,y) – SVM, NB, MaxEnt (Lo
機械学習による自然⾔語処理 チュートリアル 〜PerceptronからCRFまで〜 岡野原 大輔 東京大学 Preferred Infrastructure 2008 8/3@PFI本郷オフィス 目次 • 自然⾔語処理 紹介 • 機械学習導⼊ • パーセプトロン • バッチ学習 (最大エントロピー法) • 過学習/正則化 • 多クラス分類 • 系列分類 (CRF, Structured Perceptron) このへんで 眠くなる 自然⾔語処理 (1/2) • ⾔語情報をコンピュータで処理する – コンピュータ⾔語の研究との対⽐で自然⾔語 – 世界最初のコンピュータの出現の頃から自動翻訳は 試みられている。コンピューターサイエンスの中で も歴史の⻑い分野 – 近年ビジネス的にも成功, Googleなどなど • 非常に幅広い分野と接触する、境界領域 – 処理する⼿法 = ⾔語学, 数学,
固有表現抽出 Named Entity Recognition 目次 背景 演習の流れ 参考文献 背景 大量の言語データから情報抽出を行う際の中心的な技術として固有表現抽出が知られています[1][2](デモ例1[7], デモ例2[8]).固有表現とは,組織名(会社名,団体名など),人名,地名,製品名などであり,言語データ中のどの部分が固有表現に対応しているかを解析することが固有表現抽出のタスクとなります.これらの抽出された固有表現を利用して,文の意味解析などさらに高度なアプリケーションを作ることが可能となります. 例えば,”今日は本郷で山田教授と田中さんからThinkpadの使い方を教えてもらいました.”,の文から固有表現として人名,地名,製品名を取り出す場合は,”本郷”(地名),”山田”,”田中”(人名),”Thinkpad”(製品名)が固有表現として抽出されることになります.そして,
2003年度 情報科学実験I Prolog 演習のホームページです. Contents 概要 レポート,単位 連絡事項 講義資料 課題提出状況 参考文献 概要 本演習では,論理プログラミング言語の代表であるPrologによるプログラミング課題をこなしてもらい,論理プログラミング言語の背後にある諸理論とその応用範囲について学んでもらいます. レポート,単位 質問についてはSubject: question,第n回のレポートについてはSubject: report nで共に, [email protected] で受け付けます. 原則として,レポートの締切は二週間後の授業の開始時刻(13:00).最終課題の締切までに全ての必須課題を解いたレポートを出せば,単位はつきます.ただし,締切に遅れたレポートについては減点はします.詳しくは第1回のレジュメを参照すること. 連
統計的機械翻訳〜翻訳システムの作成とその改善〜 目次 背景 演習の流れ 参考文献 背景 この課題では、近年研究が進む統計的機械翻訳と呼ばれる手法を用いて、実際にコンピュータに翻訳をさせるプログラムを組み立ててもらいます。 従来の機械翻訳手法では、入力文の構造や意味を解析して、それらを人手で記述したルールを用いて出力言語のものに変換して出力文を生成する方式がとられています。この場合、人手で記述するルールは多様な言語現象を広汎にカバーしなければならず、またルールの組み合わせが複雑で人手で記述するのが困難な場合もあり、なかなか思うように性能が上がっていません。 一方、近年において大量のテキストデータが利用可能になるのに伴い、自然言語処理の様々な分野で大量のデータを用いた手法が用いられるようになりました。機械翻訳においても例外ではなく、統計的機械翻訳 [1] や用例ベース翻訳 [2] といった新し
Feb 12 (Tue): 10:30-10:50 Opening Remarks and Project Introduction Tsujii, Jun'ichi 10:50-12:10 Session I: New Models for NLP Haghighi, Aria, University of California at Berkeley, USA Slides "Latent Variable Models in NLP" Okanohara, Daisuke, University of Tokyo, Slides "Dualized L1-regularized Log-Linear Models and Its Application in NLP" 12:10-14:00 Lunch Break 14:00-16:00 Session II: Informatio
Our research group at the University of Tokyo has been granted a five-year project on advanced NLP by the Ministry of Education, Culture, Sports, Science and Technology (MEXT) in Japan. The project, aNT (advanced NLP and Text Mining), started in April 2006, and its technological focus is on deep parsing and knowledge-based processing with a strong emphasis on combining these with machine learning
MEDIE is an intelligent search engine to retrieve biomedical correlations from MEDLINE. You can find abstracts/sentences in MEDLINE by specifying semantics of correlations; for example, "What activates p53" and "What causes colon cancer". Currently, 15,976,265 MEDLINE articles are indexed. Semantic search is to use a semantic query for finding biomedical correlations. Input a subject, a verb, and
〒113-0033 東京都文京区本郷7-3-1 東京大学大学院 情報理工学系研究科 コンピュータ科学専攻 e-mail: hillbig (at)is.s.u-tokyo.ac.jp オフィス: 理学部7号館 615号室 +Tel: +81/03 5803 1697 Fax: +81/0 3 5802 8872 自己紹介 2007年4月から東京大学大学院情報理工学系研究科・コンピュータ科学専攻博士課程に在籍し、統計的自然言語処理を中心に研究しています。 研究の興味 大規模なコーパスから得られた統計情報を利用した自然言語処理に関心があり、工学的(データ構造、アルゴリズム)、および理論的(学習理論、情報理論)の両面から研究を行っています。 キーワード 機械学習, 言語モデル、情報検索 簡潔データ構造, 圧縮接尾辞配列/木 データ圧縮、凸最適化 学術関連のEvent(最近12ヶ月) 2007年9
English 概要 Bepは大規模なコレクションからなる連想配列を扱うためのライブラリです.連想配列は文字列からなるキーを利用して任意のオブジェクトを登録・参照できるデータ構造です.C++ではSTL map, hash_mapなどが知られていますが,数千万から数億個のコレクションを処理する場合,使用メモリ量が非常に大きくなってしまう問題点がありました.Bepは内部に最小完全ハッシュ関数を利用し,従来の実装に比べ少ない作業領域量でコレクションを保持します.キー自体を除けば,1keyあたりの作業領域量は約3bitです(全体では,(keyを全てつなげた長さ) + (3/8*key種類数)バイト必要です) ダウンロード Bepはフリーソフトウェアです.BSD ライセンスに従って本ソフトウェアを使用,再配布することができます. bep-0.01.tar.gz: HTTP 更新情報 2007-
辻井研究室 情報科学演習3 2008年度 東京大学理学部情報科学科 4年生前期の情報科学演習3の 辻井研究室 の演習内容の紹介ページです。 目次 はじめに 課題一覧 はじめに 辻井研究室では、自然言語処理(あるいは計算言語学)に関する研究を行なっています。我々の最終的な目的は、以下の2つがあると考えています。 人間がふだん使っていることば(自然言語)という現象の性質や構造さらには人間の知能・知識の構造を、情報科学の観点から把握、記述すること。 自然言語が扱える「賢い」アプリケーション、例えば、機械翻訳や、対話システム、あるいは文章からの情報検索/抽出、などを可能にするプログラムの開発・基礎技術を構築すること。 前者は、計算機を利用して、自然言語の「文法」や「意味」をモデル化しようというものです。自然言語を扱うアプリケーションを実現するためには、「文法的に正しい」「意味の通った」文を生成した
GENIA Tagger - part-of-speech tagging, shallow parsing, and named entity recognition for biomedical text - What's New 20 Oct. 2006 A demo page is available. 6 Oct. 2006 Version 3.0: The tagger now performs named entity recognition. Overview The GENIA tagger analyzes English sentences and outputs the base forms, part-of-speech tags, chunk tags, and named entity tags. The tagger is specifically tu
2006年6月8日 吉田和弘 東京大学大学院 情報理工学系研究科 コンピュータ科学専攻 kyoshida AT is.s.u-tokyo.ac.jp English version 最大エントロピー法とは 最大エントロピー法は,事象の確率分布p(x)を計算するために, 事象xが持つ特徴を, 素性関数(または素性) f_iの集合を使って抽出します. f_i(x)は事象を受け取って実数を返す関数で, 各 i に対して一つの特徴が対応します. 典型的には,各f_i(x)は, 事象xにおいて特徴f_iを何回観測したかを表します. 事象 e=<x>, 素性関数 f_i が与えられた時, 最大エントロピーモデルは以下の式で確率値を与えます. p(x) = 1/Z exp( sum( l_i * f_i(x) ) = 1/Z prod( a_i^f_i(x) ) l_i (lambda) または
形態素周辺確率を用いた 確率的単語分割コーパスの構築とその応用 岡野原 大輔 † 工藤 拓 ‡ 森 信介 § † 東京大学情報理工学系研究科コンピュータ科学専攻 ‡Google Japan § 日本 IBM 東京基礎研究所 [email protected], [email protected], [email protected] 1 概要 本稿では、入力テキストの基本単位への分割情報を曖 昧性を保ったままコンパクトに保持し、オンライン時に 適切な処理単位を求める手法を提案する.情報検索や文 書分類などにおいては、与えられたテキストを単語など 適切な処理単位に分割した上で扱う場合が多い.この時、 どのような分割が最適かはタスク依存であり決定できな いため、曖昧性を保ったまま分割情報を保持することが 望まれる.本稿では CRF を用いた形態素解析結果の周 辺確率を用いて各
次のページ
このページを最初にブックマークしてみませんか?
『Tsujii Laboratory』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く