datahub-project · shirshanka · Feb 17, 2021 · Apr 9, 2020 · Jul 2, 2020 · Sep 16, 2020
diff --git a/docker/elasticsearch-setup/Dockerfile b/docker/elasticsearch-setup/Dockerfile
@@ -3,11 +3,12 @@ FROM jwilder/dockerize:0.6.1
 
 RUN apk add --no-cache curl
 
-COPY corpuser-index-config.json dataprocess-index-config.json dataset-index-config.json /
+COPY corpuser-index-config.json dataprocess-index-config.json dataset-index-config.json ml-model-index-config.json /
 
 CMD dockerize \
     -wait http://$ELASTICSEARCH_HOST:$ELASTICSEARCH_PORT \
     -timeout 120s \
     curl -XPUT $ELASTICSEARCH_HOST:$ELASTICSEARCH_PORT/corpuserinfodocument --data @corpuser-index-config.json && \
     curl -XPUT $ELASTICSEARCH_HOST:$ELASTICSEARCH_PORT/dataprocessdocument --data @dataprocess-index-config.json && \
-    curl -XPUT $ELASTICSEARCH_HOST:$ELASTICSEARCH_PORT/datasetdocument --data @dataset-index-config.json
+    curl -XPUT $ELASTICSEARCH_HOST:$ELASTICSEARCH_PORT/datasetdocument --data @dataset-index-config.json && \
+    curl -XPUT $ELASTICSEARCH_HOST:$ELASTICSEARCH_PORT/mlmodeldocument --data @ml-model-index-config.json
diff --git a/docker/elasticsearch-setup/ml-model-index-config.json b/docker/elasticsearch-setup/ml-model-index-config.json
@@ -0,0 +1,212 @@
+{
+  "settings": {
+    "index": {
+      "analysis": {
+        "filter": {
+          "autocomplete_filter": {
+            "type": "edge_ngram",
+            "min_gram": "3",
+            "max_gram": "50"
+          },
+          "custom_delimiter": {
+            "split_on_numerics": "false",
+            "split_on_case_change": "false",
+            "type": "word_delimiter",
+            "preserve_original": "true",
+            "catenate_words": "false"
+          }
+        },
+        "char_filter": {
+          "ml_model_pattern": {
+            "pattern": "[.]",
+            "type": "pattern_replace",
+            "replacement": "/"
+          }
+        },
+        "normalizer": {
+          "my_normalizer": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom"
+          }
+        },
+        "analyzer": {
+          "whitespace_lowercase": {
+            "filter": [
+              "lowercase"
+            ],
+            "tokenizer": "whitespace"
+          },
+          "slash_pattern": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom",
+            "tokenizer": "slash_tokenizer"
+          },
+          "ml_model_pattern": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom",
+            "tokenizer": "ml_model_pattern"
+          },
+          "comma_pattern": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom",
+            "tokenizer": "comma_tokenizer"
+          },
+          "custom_browse": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom",
+            "tokenizer": "path_hierarchy_tokenizer"
+          },
+          "custom_ngram": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom",
+            "tokenizer": "custom_ngram"
+          },
+          "custom_keyword": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom",
+            "tokenizer": "keyword"
+          },
+          "comma_pattern_ngram": {
+            "filter": [
+              "lowercase",
+              "autocomplete_filter"
+            ],
+            "type": "custom",
+            "tokenizer": "comma_tokenizer"
+          },
+          "delimit": {
+            "filter": [
+              "lowercase",
+              "custom_delimiter"
+            ],
+            "tokenizer": "whitespace"
+          },
+          "ml_model_pattern_ngram": {
+            "filter": [
+              "lowercase",
+              "autocomplete_filter"
+            ],
+            "type": "custom",
+            "tokenizer": "ml_model_pattern"
+          },
+          "custom_browse_slash": {
+            "filter": [
+              "lowercase"
+            ],
+            "type": "custom",
+            "tokenizer": "path_hierarchy"
+          }
+        },
+        "tokenizer": {
+          "path_hierarchy_tokenizer": {
+            "type": "path_hierarchy",
+            "replacement": "/",
+            "delimiter": "."
+          },
+          "custom_ngram": {
+            "type": "ngram",
+            "min_gram": "3",
+            "max_gram": "50"
+          },
+          "slash_tokenizer": {
+            "pattern": "[/]",
+            "type": "pattern"
+          },
+          "comma_tokenizer": {
+            "pattern": ",",
+            "type": "pattern"
+          },
+          "ml_model_pattern": {
+            "pattern": "[./]",
+            "type": "pattern"
+          }
+        }
+      }
+    }
+  },
+  "mappings": {
+    "doc": {
+      "properties": {
+        "browsePaths": {
+          "type": "text",
+          "fields": {
+            "length": {
+              "type": "token_count",
+              "analyzer": "slash_pattern"
+            }
+          },
+          "analyzer": "custom_browse_slash",
+          "fielddata": true
+        },
+        "origin": {
+          "type": "keyword",
+          "fields": {
+            "ngram": {
+              "type": "text",
+              "analyzer": "custom_ngram"
+            }
+          },
+          "normalizer": "my_normalizer"
+        },
+        "hasOwners": {
+          "type": "boolean"
+        },
+        "name": {
+          "type": "keyword"
+        },
+        "num_inputs": {
+          "type": "long"
+        },
+        "num_outputs": {
+          "type": "long"
+        },
+        "owners": {
+          "type": "text",
+          "fields": {
+            "ngram": {
+              "type": "text",
+              "analyzer": "comma_pattern_ngram"
+            }
+          },
+          "analyzer": "comma_pattern"
+        },
+        "orchestrator": {
+          "type": "keyword",
+          "fields": {
+            "ngram": {
+              "type": "text",
+              "analyzer": "custom_ngram"
+            }
+          },
+          "normalizer": "my_normalizer"
+        },
+        "urn": {
+          "type": "keyword",
+          "normalizer": "my_normalizer"
+        },
+        "inputs": {
+          "type": "keyword",
+          "normalizer": "my_normalizer"
+        },
+        "outputs": {
+          "type": "keyword",
+          "normalizer": "my_normalizer"
+        }
+      }
+    }
+  }
+}