サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
2024年ランキング
www.rondhuit.com
株式会社ロンウイット(本社:東京都千代田区、代表取締役社長:関口 宏司)は、新元号「令和」に対応する検索エンジンのパッチリリースを発表いたします。 「天皇の退位等に関する皇室典範特例法」により、和暦の元号は2019年5月1日に「平成」から新元号「令和」に変わります。 Webサイトや社内ポータルなどにある検索機能では、ユーザーの入力が西暦和暦にかかわらず必要な情報が得られることが理想ですが、ロンウイットでは昭和や平成などの和暦を入力しても該当する西暦の情報が得られたり、逆に西暦を入力した場合でも該当する和暦の情報を得られる検索エンジン”ロンウイットSolrサブスクリプション”を提供してきました。 今回の新元号「令和」にも迅速に対応すべく、本日対応パッチをリリース致します。 既存のお客様には2年前以降にリリースされた各バージョンに対するパッチをご提供し、新規のお客様はパッチ適用済の製品をご利用
3月28日に当社 Web サイトで公開した、「新元号『安久』に対応する検索 エンジンのパッチリリースを発表」という記事につきまして、以下に経緯のご説明をさせていただきますとともに、世間をお騒がせし、関係者各位に多大なるご心配とご迷惑をおかけしたことを深くお詫び申し上げます。 当社の Web サイトで、「新元号『安久』に対応する検索エンジンのパッチリリースを発表」というリリースが一時的に公開され、ツイッターなどで大きく注目を集める事態となってしまいました。 リリース発表記事は、「天皇の退位等に関する皇室典範特例法」により元号が「平成」から新元号「安久」に変わるため、検索エンジンにおける「安久」の対応パッチをリリースすると周知する内容でした。このため、新元号が「安久」であることが確定しているかのように読み取れてしまいました。一部ネットでは、「事前に新元号が『安久』になることを知らされている企業
著者:関口宏司 はじめに Apache Hivemall を知ってますか?Apache Hivemall(以下、Hivemall)はその名が示すとおり、Apache Software Foundation(以下、ASF)のもとで開発が進められているオープンソース・ソフトウェア(以下、OSS)です。Hivemall は元々 Arm Treasure Data 社(以下、トレジャーデータ)が社内で開発していたソフトウェアですが、同社が2016年に ASF に寄贈し、ASF の育成プログラムである Apache Incubator プロジェクトの一部となったものです。 “Apache” ブランドを名乗ることができる ASF に所属する OSS といえば、Apache HTTP Server や Apache Tomcat などがありますが、これらはほとんどの方がご存知でしょう。それ以外にも私がコ
Apache OpenNLP を知ってますか。Apache OpenNLP(以下単に OpenNLP と記します)はその名の通り Apache Lucene/Solr と同じように Apache Software Foundation のもとで管理されているオープンソース製品で、自然言語処理のためのツールセットです。 自然言語処理(英語で Natural Language Processing;NLP と略記される)とは、日本語や英語などの自然言語で書かれたテキストを処理するための技術の総称です。文書要約、機械翻訳、形態素解析、構文解析などなどいろいろな NLP のタスクがあります。本記事では OpenNLP の一機能である固有表現抽出について説明します。 固有表現抽出とは 日本語などの自然言語で書かれたテキストには人名、地名、組織名などの固有名詞が含まれています。これらの固有名詞を属性(
The Apache Software Foundation(以下 ASF)は米国に本拠地を置く非営利団体です。この記事を読んでいるほとんどの方は、開発者の立場あるいは利用者の立場という違いはあれど、ソフトウェア業界に何らかの形で関わりを持っていると思いますので、ASFの名前やそこで管理されているOSS(オープンソース・ソフトウェア)の製品をいくつかご存知かと思います。しかし、ASFという団体自体はどうでしょうか。私も含めて「よくわからない」という方がほとんどではないでしょうか。 先週のことになりますが、私はASFにメンバーとして加入することになりました。ASFメンバーとは、株式会社における株主のようなものです。つまり、ASFを運営する経営陣を選ぶ権利(投票権)を持つ一方、ASFが経営陣によって正しく運営されているか、監視する義務も負います。ASFメンバーになったのはつい先週ですが、Luc
著者:西潟 一生 2018年3月16日 に行われた 言語処理学会第24回年次大会 のワークショップに参加してきました。 言語処理学会の年次大会は NLP 関係者が年に一度集い,各研究成果を発表する場です。現在ロンウイットは学会での活動は行なってはいませんが,本学会における研究成果には常に注目しています。 今回は岡山県での開催でしたので,最終日のワークショップのみ参加(聴講)してきました。ワークショップの詳細についてはリンクを参照して下さい。 参加したワークのショップのテーマは「形態素解析の今とこれから」です。丸1日を使って形態素解析についてディスカッションを行うという非常に稀な場でしたが,形態素解析についての現状を知ることができ,大変有意義だったかと思います。 午前中は以下の形態素解析器及びそれらに使用される辞書の開発者がそれぞれ現状を報告して下さいました。午後の招待講演も合わせ,内容をそ
溝口 泰史 著 2017年8月7日から8月11日の5日間新宿で開催された、情報検索分野トップカンファレンスのACM-SIGIR 2017に参加してきました。実際には初日はチュートリアル、最終日はワークショップなので、学会としては三日間でしたが、チュートリアル・ワークショップを含め、とても刺激的な五日間でした。 会場は京王プラザホテルで、JRの新宿駅からは地上にほとんど出ることなく行き来することができました。会期中雨の降ることが多かったので、この会場の立地はとてもありがたかったです。会場は5階、42階、43階になることが多かったですが、コーヒーブレイクやポスターセッションで立ち寄った43階の部屋からの眺望は曇天にもかかわらず遠くまで新宿を見渡すことができ、気分をリフレッシュすることができました。 一日の間にいくつもの発表を聞いており、全ての発表の感想はとても書ききれないので、以下は興味深いと
著者:打田智子 10/15 – 16 (トレーニングを含めると 10/13 – 16) に Austin, Texas で開催された Lucene/Solr Revolution に参加しました。カンファレンス参加レポートを記載します。 セッションレポート 聴講したセッションの中から、いくつかピックアップして簡単にレポートしたいと思います。 なお、発表スライドのうち、すでに公開されているものはこちらから見ることができます。また、全セッションのビデオは追って公開される予定です。 (Day 1) Leveraging Lucene/Solr as a Knowledge Graph and Intent Engine (by Trey Grainger, CareerBuilder.com) 発表者は “Solr in Action“ の共著者の一人で、一昨年、昨年に引き続き発表されている方で
阿部 慎一朗 著 はじめに 一般的な検索エンジンでは、類義語の検索や類義語のハイライトができます(類義語とは、旅館|ホテル、首相|内閣総理大臣、木村拓哉|キムタク、ロンウイットサブスクリプション|RCSS、などのように、商品名・人名などの略語や任意の語句の言い換え表現を指します)。一般的なRDBの場合、単純なSQL文であれば、文字列の部分一致で検索しにいきますので、文字列が違う類義語の検索はサポートできていません(ハイライトもできません)。したがって類義語が検索できる点は、検索エンジンの特徴のひとつと言えます。Solrでは、日本語の類義語検索や類義語ハイライトができますので、本記事では、使用方法とその注意点をご説明いたします。 Solrでは、類義語フィルタをフィールドタイプに追加して、類義語辞書を用意して、検索対象ドキュメントをインデクシングすれば、類義語検索や類義語ハイライトがすぐに実現
著者:関口宏司 6/30から7/1の2日間でサンフランシスコで開催されたSpark Summit 2014に参加しました。Spark初心者の私は明日開催されるトレーニングも受講予定ですが、この2日間の簡単なレポートをしたいと思います。明日のトレーニングで何か書けることがあれば、追加で書くかもしれません。 Spark Summit 2014 の会場となった WESTIN ST FRANCIS (ウェスティン・セント・フランシス)。サンフランシスコ名物のケーブルカーが通るPowell St.沿いの格調高いホテル Apache Spark とは? Apache Spark は大規模データの分散処理をオンメモリで実行するフレームワークで、処理(途中)結果を都度HDDに書き込むバッチ&高信頼処理に向くApache Hadoopに比べて低レイテンシのアプリケーションを実現することができるOSSプロダク
ApacheConは、さまざまなApacheプロジェクトのカンファレンスです。今回アメリカのデンバーで4/7-4/11に開催されました。Apacheのビッグデータ関連のプロジェクト(Hadoop,HBase,またその関連ソリューションのプロジェクト)、Tomcatプロジェクト、CloudStackのプロジェクト、Apache Traffic ServerなどたくさんのApacheプロジェクトのセッションがあり、私は、Lucene/Solrのセッションを見に行きました。 スケジュール:http://events.linuxfoundation.org/events/apachecon-north-america/program/schedule Apacheコミッタだと参加費割引がききますので、私はApache ManifoldCFのコミッタということで参加登録しました。今回Manifold
会場 東京都千代田区神田東紺屋町28−1 VORT神田Ⅱ 4階 前提知識 演習ではUbuntuマシンを使用しますので、viやEmacsなどのエディタが使えたり、Linuxコマンドを知っているとスムーズに受講できます。 お申し込み前のご準備 LAN接続(無線/有線いずれか)が可能でsshが利用できるノートPCをご持参ください。ノートPCをご用意できない場合はお申し込み時にご連絡ください。お貸し出しいたします。 また手計算による演習がありますので、鉛筆/シャープペンシル、消しゴムをご用意ください。 価格/申し込み方法 1名様につき 198,000円(税別) 入力フォームよりお申し込みください。開催決定後、請求書を発行いたしますので、期限までにお振り込みください。会社経理の都合上遅れる場合はご一報下さい。 開催決定の通知後(通知はお申込み受付後から、開催日のおおむね一週間前までに)はキャンセルは
阿部 慎一朗 著 はじめに SolrのScriptUpdateProcessorを、サンプルコードを動かしながら紹介します。 ScriptUpdateProcessor とは? Solr 4 から、インデクシングの前処理を行うUpdateRequestProcessorに、ScriptUpdateProcessorが追加されています。ScriptUpdateProcessorは、JVMがサポートするスクリプト言語(JavaScriptやJRubyなど)を使用して、事前コンパイルなしでスクリプトを実行し、ドキュメント登録時にインデクシングの前処理するというUpdateRequestProcessorです。 これまではインデクシングの前処理を行うのに、JavaでUpdateRequestProcessorをextendsしてコードを書く必要がありました。しかし、ScriptUpdateProc
ManifoldCFはJavaで書かれたOSSのクローラーです。クローラーとは、Webや社内ファイルサーバなどに保存されている文書を収集するプログラムのことで、ロボットなどと呼ばれることもあります。 クローラーは検索エンジンには不可欠なプログラムです。クローラーで収集した文書を検索エンジンに登録して検索対象とします。 ManifoldCFはSolrのコネクターを持ち、収集したファイルを簡単にSolrに登録することができます。 また、ManifoldCFは差分クロールやファイルパーミッション情報のクロールを行うことができます。セキュリティ情報をきめ細かく取得することができるので、企業内検索システムでは不可欠な役職や所属部署によるセキュリティを考慮した検索機能が実現可能です。 ロンウイット社員も開発の中心メンバーとして、ManifoldCFの不具合の修正や新機能の追加を行う活動をしてい
著者:関口宏司 はじめに Lucene/Solr 4.1.0がリリースされました。本記事は4.0から導入されたCodecに着目し、Codec(Flex API)導入以前の最終バージョンである3.6.2と最新の4.1.0の検索性能比較を行いましたのでその結果を簡単に報告します。 Codec〜Flex APIとは CodecはLuceneインデックスのセグメントファイルを読み書きする低レベルのプログラムです。提案当時(4.0開発当時)はFlex APIなどと呼ばれ、Luceneインデックス内を自在に(4軸方向に!)イテレートするAPIを提供するとともに、セグメントファイルのフォーマットをより柔軟に切り替えられるよう、Codecレイヤを明確に分離するように大幅に書き換えられました。 これにより新しいCodecを取り込むのが容易になったり、今後の研究で最新のCodecを試すのにLuceneが選ばれ
今回はApache ManifoldCFのWindows共有サーバのクロールをご説明します。 ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。 Windows共有サーバ接続によるクロールの特長 Windows共有サーバとは、WindowsのサーバOSで共有フォルダを作ってファイルを共有するサーバのことです。Active Directoryによってドメイン管理されているグループやユーザが、各クライアントPCからアクセスして、サーバのリソースに対して操作を行います。Windows共有サーバでは、共有フォルダやファイルに対して、アクセス許可やセキュリティを設定することによって、グループやユーザ別に異なったセキュリティを付与することができます。 ManifoldCFでは、このWindows共有サーバに接続して、クロールすることができます。リモートにあるサーバ
alike での類似画像検索の主要な部分は上記の既存OSSを利用しているため、alike 自身は非常にコンパクトな構造になっています。下図にalikeのアーキテクチャを示します。 Apache alikeのデモ 下記のリンクをクリックすると、類似画像検索を体験できます。リンクをクリックして表示された画面の一番上の画像が「検索元」の画像で、2番目以降の画像が検索元と似ていると判断された類似画像一覧です。Luceneにより「似ている順」に表示されています。 http://rondhuit-demo.com/p/alike/ukbench/full/ukbench01700.jpg http://rondhuit-demo.com/p/alike/ukbench/full/ukbench01990.jpg http://rondhuit-demo.com/p/alike/ukbench/full
日本語Wikipediaなどの「辞書型コーパス」からLucene/Solr用の類義語辞書を自動作成するシステムを開発しましたので、簡単にご紹介します。 参考資料(SlideShare) 辞書型コーパスからの類義語知識の自動獲得(SlideShare) Lucene/Solrと類義語検索 Lucene/SolrではSynonymFilterを使って類義語検索を簡単に実現することができます。たとえば次のような内容のsynonyms.txtを用意し: 自動車損害賠償責任保険, 自賠責保険 Solrのschema.xmlファイルに次のようなフィールド型を定義すれば: <fieldType name="text_ja" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.Japane
Apache OpenNLPとは? Apache OpenNLP(以下OpenNLP)は、統計的自然言語処理(Statistical Natural Language Processing)のためのツールキットです。Javaで実装されたOSSの自然言語処理(NLP)ライブラリであり、2010年11月にApache Incubatorに寄贈され、2012年2月にApacheのトップレベルプロジェクト(TLP)に昇格しました。 自然言語処理と検索エンジンは技術的な関連が深いため、OpenNLPの知識があると、Solrの機能を改善したりパワーアップするのに大いに役立ちます。たとえばLUCENE-2899では、OpenNLPのトークナイザーをSolrから使うための改善提案が行われています。 OpenNLP関連記事の第一弾となる本稿では、OpenNLPの利用知識の入門として、OpenNLPに附属して
ロンウイットのSolrサブスクリプション・パッケージはバージョン0.10から、お客様からご要望の多かったリアルタイムクラスタリング(クラスタリング検索)に対応しました。本記事ではその新機能を簡単に紹介します。 「クラスタリング検索」とは? クラスタリングは検索結果文書を適当にラベル付けされたテーマ別グループ、つまりクラスタに自動分類する機能です。 クラスタリング機能はファセット機能と並び、大量にヒットした文書から、目的の文書をすばやく見つけるための絞り込みを行うのに役立ちます。フィールドファセットと異なり、あらかじめ絞り込み用のフィールドを整備する必要がなく、検索にヒットした文書内容をリアルタイムに解析することからしばしば「リアルタイムクラスタリング」などと呼ばれることもあります。 さらにR&Dなど創造性が重視される部門においては、クラスタリングの結果を可視化(後述)することでスコアの低い
ロンウイットのSolrサブスクリプション・パッケージはバージョン0.9から、お客様からご要望の多かった日本語の「もしかして検索」に対応しました。本記事ではその新機能を詳しく紹介します。 「もしかして検索」とは? もしかして検索は、GoogleやYahoo!の検索窓に、間違った(と思われる)検索語を入力したとき、以下の画面例のように「もしかして○○」(Googleの場合)あるいは「○○ではありませんか?」(Yahoo!の場合)という文言を検索結果ページに表示する機能です。 「○○」の部分にはその間違った検索語を訂正した正しい(と思われる)検索語がアンカーリンクで表示されます。そのため、もし訂正された検索語が正しかった場合、ユーザーは検索語を再入力することなく、リンクをクリックするだけで再検索できるようになります。「もしかして検索」は、ユーザーの省力化に大きく貢献する、大変優れた効果的な検索機
先日、Lucene/Solrのbranch_3x(3.6)とtrunk(4.0)にコミットされた日本語向けのトークナイザ・トークンフィルタをご紹介します。 LuceneのJIRAのチケット LUCENE-3305 にて、日本語形態素解析器Kuromojiが導入されました。 これにより、日本語ドキュメントに対して形態素解析に基づく単語分割が可能になります。 従来、Lucene/Solrで日本語対応をする場合は、lucene-gosenやSenを使用する方法などをとってきましたが、今回の対応であらかじめLucene/Solrに組み込まれたものを使用するということが可能になります。 また一方で、LUCENE-2906にて、CJK文字に関するトークンフィルタも追加されました。 本記事では、これらのトークナイザ・トークンフィルタに関して、2012/2/23時点のソースに基づいて調査したものを解説いた
Apache Solrが出力するクエリログを可視化するツールsoleamiの使い方をご紹介します。本稿ではもっとも一般的な使い方を想定し、SolrをTomcat上にデプロイして使う場合について解説します。 おおまかな手順は、以下の通りです(すでにTomcat上で稼働しているSolrをお持ちの方や弊社サブスクリプション・パッケージのお客様は、手順4.からお読みください)。 Tomcatのダウンロード Solrのダウンロード 文字化け対策 solrconfig.xmlの編集 SolrのTomcatへのデプロイと起動 検索を実行 soleamiでログを可視化 なお、Linux/Macの環境を前提に話を進めます。Windowsの場合はcygwinなどを使いながら、置き換えて読み進めてください。 またユーザsolrがログインディレクトリ/home/solrの下にworkというディレクトリを作成し、そ
今回はApache ManifoldCFのWebサーバのクロールをご説明します。 ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。 Webサーバ接続によるクロールの特長 ManifoldCFでは、一般的なWebクローラの機能を持っています。HTMLやRSSフィードからリンクを抽出して、HTMLだけでなくリンク先にあるドキュメントをクロールすることができます。そして、そのドキュメントからコンテンツを抽出して、Solrでインデクシングすることができます。 企業内のWebサーバで情報共有している社内ポータルの検索や社内管理文書を検索する、といったケースにManifoldCFを使うことができます。Solrと連携してWebのドキュメントの検索を行います。 準備 「Apache ManifoldCF -セットアップ-」に記載されているセットアップ作業を実施します
今回はApache ManifoldCFのファイルサーバのクロールをご説明します。 今回から、ManifoldCFの管理画面から設定を行い、実際にクロールを実行して動作を確認します。 ファイルサーバ接続によるクロールの特長 もともとデモ用やテスト用に開発されたため、ローカルサーバが対象でありリモートサーバは対応できないこと、ファイルのセキュリティを考慮していないこと、設定項目が限定的であること、などの制限があります。(なお、このような制限は、次回説明するWindows共有サーバのクロールにはなく、より実践的に利用することができます。) 逆に言えば、準備がほとんど不要で、管理画面の設定が簡単なのですぐに利用できること、個人用デスクトップクローラ、デスクトップサーチとして利用できること、という特長があります。 準備 「Apache ManifoldCF -セットアップ-」に記載されているセット
Apache ManifoldCFのセットアップ手順をご説明します。 最初に前提となる実行環境を準備します。 Java 5以上の環境にします。 Apache Antをセットアップします。ManifoldCFのビルドに使用します。 適当なディレクトリに展開して「そのディレクトリ/bin」を環境変数に設定します。 PostgreSQL8.4以上をセットアップします。ManifoldCFの管理データベースとして使用します。 ManifoldCFをセットアップします。 ManifoldCFをダウンロードします。 適当なディレクトリに展開します。ここでは説明の便宜上、/home/mcfディレクトリにダウンロードして展開することとします。 $ cd /home/mcf # ここにダウンロードして... # ダウンロードしたファイルを展開 $ tar xzvf apache-manifoldcf-0.3
Apache ManifoldCF(マニフォールドシーエフ)は、Apacheソフトウェア財団で開発されている、オープンソースソフトウェアのクローラフレームワークです。 Apacheのインキュベータプロジェクトとして、Solrの関連プロジェクトであり、Solrとの連携に親和性があります。 ManifoldCFの「CF」とは、Connector Frameworkの略称であり、その名のとおり、さまざまなコネクタを持っています。 コネクタは外部システムとの接続を意味します。ファイルサーバやデータベースなどのコンテンツレポジトリに接続するレポジトリコネクタ、Active Directoryに接続するオーソリティコネクタ、Solrへ接続するアウトプットコネクタ、の3つの機能のコネクタがあります。 基本的な動作としては、ファイルサーバに接続しその中にあるファイルをクロールし(レポジトリコネクタ)、そこ
ロンウイットでは、検索システムをより使いやすく高品質にするためにこれらの技術を適宜応用しています。 UIMAはUnstructured Information Management Architectureの頭文字をとったもので、テキストデータなどの非構造化データから固有名詞などのメタデータを抽出したりする場合に利用するフレームワークです。 実際にメタデータを抽出するには別途固有表現抽出などの自然言語処理を行う必要があります。 また、機械学習の技術を検索システムに適用することで、ユーザ個人個人によって検索結果一覧を適切に表示し分ける「パーソナライズ検索」機能を実現できます。たとえば、ECサイトで「パーソナライズ検索」を使えば、「バッグ/鞄」というキーワードで検索したとき、20代女性と50代男性でそれぞれ適切な商品を表示できるようになります。 ロンウイットでは、これらの技術の一部をO
RONDHUIT REPORT Vol.8 – LUCENE SCORING TIPS & TRICKS Copyright © RONDHUIT Co.,Ltd. 1 2011 3 24 Lucene Solr Lucene Similarity Similarity Javadoc Lucene 2.9 Similarity Javadoc http://lucene.apache.org/java/2_9_4/api/all/ org/apache/lucene/search/Similarity.html https://issues.apache.org/jira/browse/LUCEN E-1908 Lucene Excel Excel V V(q) V(d) (cos ) 2 2 2 V(q) V(d) |V(q)||V(d)| Excel RONDHUIT REPORT
次のページ
このページを最初にブックマークしてみませんか?
『株式会社ロンウイット - ロンウイットはオープンソースのLucene/Solrを使った高速...』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く