æ¤œç´¢ã‚¨ãƒ³ã‚¸ãƒ³PyTerrierã‚’ä½¿ã£ãŸæ—¥æœ¬èªžæ¤œç´¢ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã®å®Ÿè£…

ã‚¨ãƒ ã‚¹ãƒªãƒ¼ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ãƒªãƒ³ã‚°ã‚°ãƒ«ãƒ¼ãƒ— AIãƒ»æ©Ÿæ¢°å¦ç¿’ãƒãƒ¼ãƒ ã§ã‚½ãƒ•ãƒˆã‚¦ã‚§ã‚¢ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã‚’ã—ã¦ã„ã‚‹ä¸æ‘(po3rin) ã§ã™ã€‚æ¤œç´¢ã¨GoãŒå¥½ãã§ã™ã€‚

ä»Šå›žã¯ç¤¾å†…ã§PyTerrierã‚’æŽ¡ç”¨ã—ã¦æ–‡æ›¸æ¤œç´¢Batchã‚’Pythonã§å®Ÿè£…ã—ãŸã®ã§ã€PyTerrierã®ç´¹ä»‹ã¨PyTerrierã§æ—¥æœ¬èªžæ¤œç´¢ã‚’å®Ÿè£…ã™ã‚‹æ–¹æ³•ã‚’ç´¹ä»‹ã—ã¾ã™(æ—¥æœ¬èªžã§PyTerrierã‚’æ‰±ã†è¨˜äº‹ã¯å¤šåˆ†åˆ?)ã€‚

PyTerrierã¨ã¯

PyTerrierã¯ã€Pythonã§ã®æƒ…å ±æ¤œç´¢å®Ÿé¨“ã®ãŸã‚ã®ãƒ—ãƒ©ãƒƒãƒˆãƒ•ã‚©ãƒ¼ãƒ ã§ã™ã€‚ Javaãƒ™ãƒ¼ã‚¹ã®Terrierã‚’å†…éƒ¨çš„ã«ä½¿ç”¨ã—ã¦ã€ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ä½œæˆã¨æ¤œç´¢æ“ä½œã‚’è¡Œã†ã“ã¨ãŒã§ãã¾ã™ã€‚åŸºæœ¬çš„ãªQuery Rewritingã‚„BM25ãªã©ã®å„ç¨®ã‚¹ã‚³ã‚¢ãƒªãƒ³ã‚°ãŒã™ãã«ä½¿ãˆã€ã¾ãŸå¦ç¿’æ¸ˆã¿ãƒ¢ãƒ‡ãƒ«ã®çµ„ã¿è¾¼ã¿ã‚„è©•ä¾¡ãªã©ã‚‚ç°¡å˜ã«ã§ãã‚‹ãŸã‚ã€é–‹ç™ºã¨è©•ä¾¡ã‚’ä¸€æ°—é€šè²«ã§è¡Œã†ã“ã¨ãŒå¯èƒ½ã§ã™ã€‚

ECIR2021ã§ã¯Learning to rankã®å®Ÿé¨“ãªã©PyTerrierã§è¡Œã†ãƒãƒ¥ãƒ¼ãƒˆãƒªã‚¢ãƒ«ãŒå…¬é–‹ã•ã‚Œã¦ã„ã¾ã™ã€‚

github.com

ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã‚’æ¼”ç®—åã§æ§‹ç¯‰ã§ãã‚‹ã®ãŒç‰¹å¾´ã§ã€ä¾‹ãˆã°ã€TF-IDFã§100ä»¶å–ã£ã¦ãã¦ã€BM25ã§ãƒªãƒ©ãƒ³ã‚ãƒ³ã‚°ã™ã‚‹ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã¯ä¸‹è¨˜ã®ã‚ˆã†ã«å®£è¨€çš„ã«å®Ÿè£…ã§ãã¾ã™ã€‚

tfidf = pt.BatchRetrieve(index, wmodel="TF_IDF")
bm25 = pt.BatchRetrieve(index, wmodel="BM25")
pipeline = (tfidf % 100) >> bm25

ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã®è©•ä¾¡ã‚‚ã™ãã«è¡Œã†ã“ã¨ãŒã§ãã¾ã™ã€‚ä¾‹ãˆã°ä¸‹è¨˜ã¯TF-IDFã¨BM25ã®æ¯”è¼ƒã‚’map(Mean Average Precision)ãƒ¡ãƒˆãƒªã‚¯ã‚¹ã§è¡Œã†ä¾‹ã§ã™ã€‚

pt.Experiment([tf_idf, bm25], topic, qrels, eval_metrics=["map"])

ã“ã®ã‚ˆã†ã«PyTerrierã§ã¯æƒ…å ±æ¤œç´¢ã®å®Ÿé¨“ç’°å¢ƒã¨ã—ã¦ã‚‚éžå¸¸ã«å„ªã‚ŒãŸã‚¤ãƒ³ã‚¿ãƒ¼ãƒ•ã‚§ãƒ¼ã‚¹ã‚’æä¾›ã—ã¦ã„ã¾ã™ã€‚

å¼Šç¤¾ã§ã®PyTerrieråˆ©ç”¨

ç¤¾å†…ã§ã€ã€Œæ•°åä¸‡ä»¶ã®termãƒªã‚¹ãƒˆãŒè¨˜äº‹ã«å‡ºç¾ã™ã‚‹ã‹ã‚’ã‚ªãƒ•ãƒ©ã‚¤ãƒ³ã§ç¢ºèªã™ã‚‹ã€ã¨ã„ã†ã‚¿ã‚¹ã‚¯ã‚’å®Ÿè£…ã™ã‚‹ã“ã¨ã«ãªã‚Šã€ãã®ä¸ã§PyTerrierã‚’ä½¿ã£ã¦ã¿ã‚‹ã“ã¨ã¨ã—ã¾ã—ãŸã€‚

ã¡ãªã¿ã«å¼Šç¤¾ã§æ—¥ã€…ä½¿ã£ã¦ã„ã‚‹Elasticsearchã‚’ä½¿ã£ã¦ã—ã¾ã†ã¨ã„ã†ã®ã‚‚å€™è£œã¨ã—ã¦ã‚ã‚Šã¾ã—ãŸãŒã€Elasticsearchã‚’åˆ©ç”¨ã™ã‚‹ã¨ã‚³ã‚¢å‡¦ç†ã®ãƒ†ã‚¹ãƒˆãŒãƒŸãƒ‰ãƒ«ã‚¦ã‚§ã‚¢ã«ä¾å˜ã™ã‚‹ã“ã¨ã«ãªã‚Šã€å‹•ä½œç¢ºèªã®ãŸã³ã«ESã‚’ç«‹ã¦ã‚‹ã€è½ã¨ã™ãªã©ã®é¢å€’ãªå‡¦ç†ãŒå¿…è¦ãªãŸã‚ã€ä»Šå›žã¯è¦‹é€ã‚Šã¾ã—ãŸã€‚

ä»–ã«ã‚‚ã€termãŒé•·ã„æ™‚ã«åˆ¥ã®æ‰‹æ³•ã‚’ä½¿ã£ã¦é«˜é€ŸåŒ–ã—ã¦ã„ãŸã‚Šã‚‚ã™ã‚‹ã®ã§ã™ãŒã€ãã‚Œã«é–¢ã—ã¦ã¯åˆ¥ã®è¨˜äº‹ã§è©³ç´°ã‚’èª¬æ˜Žã—ãŸã„ã¨æ€ã„ã¾ã™ã€‚

PyTerrierã§æ—¥æœ¬èªžæ¤œç´¢

PyTerrierã§æ—¥æœ¬èªžæ¤œç´¢ã‚’ã™ã‚‹éš›ã«ã¯å°‘ã—ã‚³ãƒ„ãŒå¿…è¦ã§ã™ã€‚PyTerrierã§ç”¨æ„ã—ã¦ã„ã‚‹Tokenizerã«æ—¥æœ¬èªžã®å½¢æ…‹ç´ è§£æžã¯ãªã„ã®ã§ã€è‡ªå‰ã§ç”¨æ„ã—ã¦ã‚ã’ã‚‹å¿…è¦ãŒã‚ã‚Šã¾ã™ã€‚

PyTerrierã§è‹±èªžä»¥å¤–ã®æ¤œç´¢ä¾‹ãŒå…¬é–‹ã•ã‚Œã¦ã„ã‚‹ã®ã§ã€ã“ã‚Œã‚‚å‚è€ƒã«ã—ã¦ãã ã•ã„ã€‚

colab.research.google.com

ä»Šå›žã¯Sudachiã§å½¢æ…‹ç´ è§£æžã—ã¦ã€PyTerrierã§æ¤œç´¢ã™ã‚‹æ–¹æ³•ã‚’ç´¹ä»‹ã—ã¾ã™ã€‚Sudachiã®ç´¹ä»‹ã‚„Sudachiã‚’Elasticsearchã«å°Žå…¥ã—ãŸè¨˜äº‹ã‚’å¼Šç¤¾ã‹ã‚‰å…¬é–‹ã—ã¦ã„ã‚‹ã®ã§ã€Sudachiã«èˆˆå‘³ã®ã‚ã‚‹æ–¹ã¯æ˜¯éžãã¡ã‚‰ã‚‚ã”è¦§ãã ã•ã„ã€‚

www.m3tech.blog

æ—©é€ŸPyTerrierã§æ—¥æœ¬èªžæ¤œç´¢ã‚’ã™ã‚‹æ–¹æ³•ã‚’ç´¹ä»‹ã—ã¦ã„ãã¾ã™ã€‚ãƒ¢ã‚¸ãƒ¥ãƒ¼ãƒ«ã¯ä¸‹è¨˜ã‚’ç”¨æ„ã—ã¾ã™ã€‚ã¾ãŸã€PyTerrierã®coreã¯Javaã§å®Ÿè£…ã•ã‚Œã¦ã„ã‚‹ã®ã§ã€Javaã®ç’°å¢ƒã‚‚ç”¨æ„ã—ã¦ãŠãã¾ã—ã‚‡ã†ã€‚

import os

import pyterrier as pt
import pandas as pd
from sudachipy import dictionary, tokenizer

PyTerrierã‚’åˆæœŸåŒ–ã—ã¾ã™ã€‚

if not pt.started():
  pt.init()

ä»Šå›žæ¤œç´¢ã™ã‚‹å¯¾è±¡ã®ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’ç”¨æ„ã—ã¦ãŠãã¾ã™ã€‚

df = pd.DataFrame([
        ["d1", "æ¤œç´¢æ–¹æ³•ã®æ¤œè¨Ž"]
    ], columns=["docno", "text"])

PyTerrierã¯Pandasã®DataFrameã‚’ãã®ã¾ã¾ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã™ã‚‹ã‚¤ãƒ³ã‚¿ãƒ¼ãƒ•ã‚§ãƒ¼ã‚¹ãŒç”¨æ„ã•ã‚Œã¦ã„ã‚‹ã®ã§ä¾¿åˆ©ã§ã™ã€‚ ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã¨ã‚¯ã‚¨ãƒªã®ä¸¡æ–¹ã‚’å½¢æ…‹ç´ è§£æžã™ã‚‹ã®ã§ã€ãã‚Œãžã‚ŒTokenizerã‚’ç”¨æ„ã—ã¦ã‚ã’ã¾ã™ã€‚ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã¯å“è©žã§ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã™ã‚‹ã‚¿ãƒ¼ãƒ ã‚’çµžã‚Šã¾ã™ã€‚

class DocTokenizer():
    tokenizer_obj = dictionary.Dictionary().create()
    mode = tokenizer.Tokenizer.SplitMode.C

    def tokenize(self, txt: str) -> list[str]:
        return [
            m.dictionary_form() for m in self.tokenizer_obj.tokenize(txt, self.mode)
            if len(set(['åè©ž', 'å‹•è©ž', 'å½¢å®¹è©ž', 'å‰¯è©ž', 'å½¢çŠ¶è©ž']) & set(m.part_of_speech())) != 0
        ]

class TokenizeDoc():
    tokenizer = DocTokenizer()

    def tokenize(self, df: pd.DataFrame):
        df['tokens'] = df['text'].apply(lambda x: ' '.join(self.tokenizer.tokenize(x)))
        return df

ã“ã‚Œã§äº‹å‰ã«ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’ã‚¿ãƒ¼ãƒ ã«åˆ†å‰²ã™ã‚‹ç”¨æ„ãŒã§ãã¾ã—ãŸã€‚ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã®DataFrameã‚’Tokenizeã—ã¾ã™ã€‚

doc_tokenizer = TokenizeDoc()
phrase_query_converter = PhraseQueryConverter()

df = doc_tokenizer.tokenize(df=df)
df

#  docno   text          tokens
#   d1     æ¤œç´¢æ–¹æ³•ã®æ¤œè¨Ž   æ¤œç´¢ æ–¹æ³• æ¤œè¨Ž

ã“ã‚Œã§ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã®æº–å‚™ãŒã§ããŸã®ã§ã€å®Ÿéš›ã«Indexå‡¦ç†ã‚’è¡Œã„ã¾ã™ã€‚æ—¥æœ¬èªžã®å ´åˆã¯ã‚¹ãƒšãƒ¼ã‚¹ã§åŒºåˆ‡ã‚‰ã‚Œã‚‹UTFTokeniserã‚’åˆ©ç”¨ã—ã¾ã™ã€‚äº‹å‰ã«ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’ã‚¿ãƒ¼ãƒ ã®ã‚¹ãƒšãƒ¼ã‚¹åŒºåˆ‡ã‚Šã«ã—ã¦ã‚ã‚‹ã®ã§ã€ãã®ã¾ã¾æ¸¡ã—ã¦ã‚ã’ã‚Œã°ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹å®Œäº†ã§ã™ã€‚

indexer = pt.DFIndexer('./askd-terrier', overwrite=True, blocks=True)
indexer.setProperty('tokeniser', 'UTFTokeniser')
indexer.setProperty('termpipelines', '')
index_ref = indexer.index(df['tokens'], docno=df['docno'])
index = pt.IndexFactory.of(index_ref)

å¾Œã¯ã‚¯ã‚¨ãƒªã®å‡¦ç†ã§ã™ã€‚PyTerrierã§ã¯ã‚¯ã‚¨ãƒªè¨€èªžã‚’ã‚µãƒãƒ¼ãƒˆã—ã¦ãŠã‚Šã€Andæ¤œç´¢ã‚„Phraseæ¤œç´¢ãŒå¯èƒ½ã§ã™ã€‚ä¾‹ãˆã°Andæ¤œç´¢ã¯+term1 +term2ã®ã‚ˆã†ã«è¨˜è¿°ã§ãã€Phraseæ¤œç´¢ã¯"term1 term2"ã®ã‚ˆã†ã«è¨˜è¿°ã§ãã¾ã™ã€‚ãã®ä»–ã®è¨˜è¿°æ–¹æ³•ã¯ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’ã”è¦§ãã ã•ã„ã€‚

http://terrier.org/docs/v5.1/querylanguage.html

ä»Šå›žã¯Phraseæ¤œç´¢ã‚’ä½¿ã£ã¦ã¿ã¾ã™ã€‚å½¢æ…‹ç´ è§£æžã—ãŸã‚¯ã‚¨ãƒªã‚’ãƒ•ãƒ¬ãƒ¼ã‚ºã‚¯ã‚¨ãƒªè¨€èªžã«å±•é–‹ã™ã‚‹å®Ÿè£…ã§ã™ã€‚

class QueryTokenizer():
    tokenizer_obj = dictionary.Dictionary().create()
    mode = tokenizer.Tokenizer.SplitMode.C

    def tokenize(self, txt: str) -> list[str]:
        return [m.surface() for m in self.tokenizer_obj.tokenize(txt, self.mode)]

class PhraseQueryConverter():
    query_tokenizer = QueryTokenizer()

    def convert(self, text: str) -> str:
        tokens = [t for t in self.query_tokenizer.tokenize(text)]
        if len(tokens) <= 1:
            return text
        joined = ' '.join(tokens)
        return f'"{joined}"'

ã‚¯ã‚¨ãƒªã‚’å‡¦ç†ã™ã‚‹æº–å‚™ãŒã§ããŸã®ã§ã€å®Ÿéš›ã«æ¤œç´¢ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã‚’å®Ÿè£…ã—ã¾ã™ã€‚ä»Šå›žã¯ã‚¯ã‚¨ãƒªã‚’ãƒ•ãƒ¬ãƒ¼ã‚ºã‚¯ã‚¨ãƒªã«å¤‰æ›ã—ã¦ã€BM25ã§ã‚¹ã‚³ã‚¢ãƒªãƒ³ã‚°ã—ã¦ä¸Šä½100ä»¶ã‚’å–å¾—ã™ã‚‹ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã‚’ç”¨æ„ã—ã¾ã—ãŸã€‚

pipe = (pt.apply.query(lambda row: phrase_query_converter.convert(row.query)) >> \ 
        (pt.BatchRetrieve(index, wmodel='BM25') % 100).compile())

compile()ã¯æ¤œç´¢ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã®DAGã‚’æ›¸ãæ›ãˆã¦æœ€é©åŒ–ã—ã¦ãã‚Œã¾ã™ã€‚ä¾‹ãˆã°compileç„¡ã—ã ã¨ã‚¯ã‚¨ãƒªã«ãƒ’ãƒƒãƒˆã™ã‚‹ãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã‚’å…¨ä»¶ã¨ã£ã¦ãã¦ã€BM25ã§ã‚¹ã‚³ã‚¢ãƒªãƒ³ã‚°ã—ã¦ä¸Šä½100ä»¶ã‚’å–å¾—ã—ã¾ã™ã€‚ä¸€æ–¹ã§compile()ã‚’è¡Œã†ã¨Luceneã§ã‚‚æŽ¡ç”¨ã•ã‚Œã¦ã„ã‚‹Block Max WANDãªã©ã®å‹•çš„ãƒ—ãƒ«ãƒ¼ãƒ‹ãƒ³ã‚°æ‰‹æ³•ã«æ›¸ãæ›ãˆã‚‰ã‚Œã€æ¤œç´¢ãŒã‚ˆã‚Šé«˜é€Ÿã«ãªã‚Šã¾ã™ã€‚compileã«ã‚ˆã‚‹æœ€é©åŒ–ã«ã¤ã„ã¦ã¯ã“ã¡ã‚‰ã®è«–æ–‡ãŒè©³ã—ã„ã§ã™ã€‚

res = pipe.search('æ¤œç´¢æ–¹æ³•')
res

#  qid docid   docno   rank    score   query_0 query
# 0    1   0   d1  0   -1.584963   æ¤œç´¢æ–¹æ³•    "æ¤œç´¢ æ–¹æ³•"

ãƒ’ãƒƒãƒˆã—ãŸãƒ‰ã‚ãƒ¥ãƒ¡ãƒ³ãƒˆã®IDã¨ã¨ã‚‚ã«rankã‚„scoreãŒè¿”ã£ã¦ãã¾ã™ã€‚ã¾ãŸã€query_0ã«ã¯å…ƒã®ã‚¯ã‚¨ãƒªã€queryã«ã¯å®Ÿéš›ã«æ¤œç´¢ãŒèµ°ã£ãŸã‚¯ã‚¨ãƒªãŒçµæžœã«è¨˜è¼‰ã•ã‚Œã¾ã™ã€‚ã‚‚ã¡ã‚ã‚“ãƒ•ãƒ¬ãƒ¼ã‚ºã‚¯ã‚¨ãƒªã«æ›¸ãæ›ãˆã¦ã„ã‚‹ã®ã§ã€æ¤œç´¢æ¤œè¨Žãªã©ã®ã‚¯ã‚¨ãƒªã«ã¯ãƒ’ãƒƒãƒˆã—ã¾ã›ã‚“ã€‚

res = pipe.search('æ¤œç´¢æ¤œè¨Ž')
res

# empty...

Phrase Queryã®æ³¨æ„ç‚¹

ç¾åœ¨Issueã«ã‚ã’ã¦ã„ã‚‹ã®ã§ã™ãŒã€ãƒ•ãƒ¬ãƒ¼ã‚ºæ¤œç´¢ã®ã‚¿ãƒ¼ãƒ ãŒã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã•ã‚Œã¦ã„ãªã„ã‚‚ã®ã ã¨ã€ãã®ã‚¿ãƒ¼ãƒ ã‚’ç„¡è¦–ã—ã¦æ¤œç´¢ã‚’ã™ã‚‹æŒ™å‹•ã‚’ç™ºè¦‹ã—ã¾ã—ãŸã€‚

github.com

å…·ä½“çš„ã«ã¯ã€ä»Šå›žã®ä¾‹ã§è¨€ã†ã¨ã€ä¸‹è¨˜ã®ã‚ˆã†ãªã‚¯ã‚¨ãƒªã§ã‚‚ãƒ•ãƒ¬ãƒ¼ã‚ºã‚¯ã‚¨ãƒªã§ãƒ’ãƒƒãƒˆã—ã¦ã—ã¾ã„ã¾ã™ã€‚

res = pipe.search('æ¤œç´¢å°‚é–€')
res

#  qid docid   docno   rank    score   query_0 query
# 0    1   0   d1  0   -1.584963   æ¤œç´¢å°‚é–€    "æ¤œç´¢ å°‚é–€"

ç›´è¿‘ã®ã§ãã‚‹å¯¾å¿œã¨ã—ã¦ã¯ã€ã‚¤ãƒ³ãƒ‡ãƒƒã‚¯ã‚¹ã•ã‚Œã¦ã„ã‚‹ã‚¿ãƒ¼ãƒ ã‚’ãƒã‚§ãƒƒã‚¯ã—ã¦ã€ã‚‚ã—å˜åœ¨ã—ãªã„ãªã‚‰ã€ãã®ã¾ã¾ã®ã‚¯ã‚¨ãƒªã‚’æŠ•ã’ã‚‹ã“ã¨ã§ãƒ’ãƒƒãƒˆã‚’é˜²ããªã©ã®å¯¾å¿œãŒè€ƒãˆã‚‰ã‚Œã¾ã™ã€‚

def convert(self, text: str, lexicon) -> str:
    tokens = [t for t in self.query_tokenizer.tokenize(text)]

    if len(tokens) <= 1:
            return text

    # indexed tokens inculde query term (bug?: phrase query ignore non indexed term)
    for t in tokens:
        if lexicon.getLexiconEntry(t) is None:
            return text

    joined = ' '.join(tokens)
    return f'"{joined}"'


lex = index.getLexicon()

pipe = (pt.apply.query(lambda row: phrase_query_converter.convert(row.query, lex)) >> pt.BatchRetrieve(index, wmodel='BM25').compile())

å¼Šç¤¾ã§ã¯ãƒ•ãƒ¬ãƒ¼ã‚ºã‚¯ã‚¨ãƒªãŒå¿…è¦ã ã£ãŸã®ã§ã€ä¸€æ—¦ã“ã®æ–¹æ³•ã§å¯¾å¿œã—ã¦ã„ã¾ã™ã€‚æ ¹æœ¬ã®åŽŸå› ã¯ç¾åœ¨èª¿æŸ»ä¸ã§ã™ã€‚

ã¾ã¨ã‚

PyTerrierã®ç´¹ä»‹ã¨ã€PyTerrierã§æ—¥æœ¬èªžæ¤œç´¢ã™ã‚‹æ–¹æ³•ã‚’ç°¡å˜ã«ç´¹ä»‹ã—ã¾ã—ãŸã€‚Pythonã§ã‚µã‚¯ãƒƒã¨æ¤œç´¢ã—ãŸã„æ™‚ã«ã¯ä¾¿åˆ©ã§ã™ã€‚ä¸€æ–¹ã§ã€PyTerrierã¯ä»Šå›žã®ã‚ˆã†ãªLexical Searchã«ã¨ã©ã¾ã‚‰ãšã€æƒ…å ±æ¤œç´¢ãƒ¢ãƒ‡ãƒ«ã®é©ç”¨ã‚„ã€å®Ÿé¨“ã®è©•ä¾¡ãªã©ã§ã‚‚æ´»èºã™ã‚‹ã®ã§ã€èˆˆå‘³ã®ã‚ã‚‹æ–¹ã¯æ˜¯éžè§¦ã£ã¦ã¿ã¦ãã ã•ã„ã€‚å€‹äººçš„ã«ã¯ECIR2021ã®ãƒãƒ¥ãƒ¼ãƒˆãƒªã‚¢ãƒ«ãŒéžå¸¸ã«è‰¯ã„å…¥é–€ã«ãªã‚Šã¾ã—ãŸã€‚

https://github.com/terrier-org/ecir2021tutorial

We're hiring !!!

ã‚¨ãƒ ã‚¹ãƒªãƒ¼ã§ã¯æ¤œç´¢&æŽ¨è–¦åŸºç›¤ã®é–‹ç™º&æ”¹å–„ã‚’é€šã—ã¦åŒ»ç™‚ã‚’å‰é€²ã•ã›ã‚‹ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ã‚’å‹Ÿé›†ã—ã¦ã„ã¾ã™ï¼ç¤¾å†…ã§ã¯æ—¥ã€…æ¤œç´¢ã‚„æŽ¨è–¦ã«ã¤ã„ã¦ã®è°è«–ãŒæ´»ç™ºã«è¡Œã‚ã‚Œã¦ã„ã¾ã™ã€‚

ã‚¨ãƒ ã‚¹ãƒªãƒ¼ãƒ†ãƒƒã‚¯ãƒ–ãƒã‚°

ã‚¨ãƒ ã‚¹ãƒªãƒ¼(m3)ã®ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ãƒ»é–‹ç™ºãƒ¡ãƒ³ãƒãƒ¼ã«ã‚ˆã‚‹æŠ€è¡“ãƒ–ãƒã‚°ã§ã™

æ¤œç´¢ã‚¨ãƒ³ã‚¸ãƒ³PyTerrierã‚’ä½¿ã£ãŸæ—¥æœ¬èªžæ¤œç´¢ãƒ‘ã‚¤ãƒ—ãƒ©ã‚¤ãƒ³ã®å®Ÿè£…

PyTerrierã¨ã¯

å¼Šç¤¾ã§ã®PyTerrieråˆ©ç”¨

PyTerrierã§æ—¥æœ¬èªžæ¤œç´¢

Phrase Queryã®æ³¨æ„ç‚¹

ã¾ã¨ã‚

We're hiring !!!

PyTerrierã¨ã¯

å¼Šç¤¾ã§ã®PyTerrieråˆ©ç”¨

PyTerrierã§æ—¥æœ¬èªžæ¤œç´¢

Phrase Queryã®æ³¨æ„ç‚¹

ã¾ã¨ã‚

We're hiring !!!

PyTerrierã¨ã¯

å¼Šç¤¾ã§ã®PyTerrieråˆ©ç”¨

PyTerrierã§æ—¥æœ¬èªžæ¤œç´¢

Phrase Queryã®æ³¨æ„ç‚¹

ã¾ã¨ã‚