ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–

ã¯ã˜ã‚ã«

æ€¥ã«å†·ãˆè¾¼ã‚“ã§ãã¾ã—ãŸã€‚OpenShift Advent Calendar 2024 ã® 7 æ—¥ç›®ã®è¨˜äº‹ã§ã™ã€‚å…ˆæ—¥ 5æ—¥ç›®ã®è¨˜äº‹ã§ã‚¢ãƒ©ãƒ¼ãƒˆé€šçŸ¥å…ˆãŒã©ã®ã‚ˆã†ã«å¤‰ãˆã‚‰ã‚Œã‚‹ã‹ã‚’ç¢ºèªã—ã¾ã—ãŸã€‚ æœ¬æ—¥ã¯ã€Cluster Logging æ©Ÿèƒ½ã®1ã¤ã§ã‚ã‚‹ã‚«ã‚¹ã‚¿ãƒ ã‚¢ãƒ©ãƒ¼ãƒˆã®ã€ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã‚’è©¦ã—ã¦ã¿ã‚ˆã†ã¨æ€ã„ã¾ã™ã€‚

qiita.com

OpenShift Cluster Logging

Cluster Logging 6 ã‹ã‚‰ã¯ã€Elasticsearch ã®æä¾›ãŒçµ‚äº†ã—ã€Grafana Loki ã®ã¿ãŒåˆ©ç”¨ã§ãã‚‹ã‚ˆã†ã«ãªã‚Šã¾ã—ãŸã€‚ãã®å°‘ã—å‰ã‹ã‚‰ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®ã‚¢ãƒ©ãƒ¼ãƒˆã®æ©Ÿèƒ½ãŒæœ‰åŠ¹ã«ãªã£ã¦ã„ã¾ã™ãŒã€çš†ã•ã‚“ãŠä½¿ã„ã«ãªã£ã¦ã„ã‚‹ã§ã—ã‚‡ã†ã‹ã€‚ ã“ã“ã§ã¯ã€ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®é€šçŸ¥ãŒã€æ˜¨æ—¥ã®ã‚¢ãƒ©ãƒ¼ãƒˆé€šçŸ¥ã¨åŒæ§˜ã«ç®¡ç†è€…ç”¨ï¼ˆCluster Monitoringï¼‰ã®Alertmanager ã¨åˆ©ç”¨è€…ç”¨ï¼ˆUser Workload Monitoringï¼‰ã®Alertmanager ã®ã©ã¡ã‚‰ã‹ã‚‰é€šçŸ¥ã•ã‚Œã‚‹ã‹ã‚’è¦‹ã¦ã„ããŸã„ã¨æ€ã„ã¾ã™ã€‚

Loki ã®ã‚³ãƒ³ãƒãƒ¼ãƒãƒ³ãƒˆã§ã¯ Ruler ãŒç›£è¦–ã®å½¹å‰²ã‚’æ‹…ã„ã¾ã™ã®ã§ã€ã“ã‚Œã«ã¤ã„ã¦è¦‹ã¦ã„ãã¾ã™ã€‚

Ruler

Grafana Loki ã«ã¯ Ruler ã¨å‘¼ã°ã‚Œã‚‹ã‚³ãƒ³ãƒãƒ¼ãƒãƒ³ãƒˆãŒå«ã¾ã‚Œã¾ã™ã€‚Ruler ã¯è¨å®šã•ã‚ŒãŸã‚¯ã‚¨ãƒªã‚»ãƒƒãƒˆã‚’ç¶™ç¶šçš„ã«è©•ä¾¡ã—ã€ãã®çµæžœã«åŸºã¥ã„ã¦ã‚¢ã‚¯ã‚·ãƒ§ãƒ³ã‚’èµ·ã“ã™è²¬å‹™ã‚’æŒã¡ã¾ã™ã€‚

grafana.com

å…·ä½“çš„ã«ã¯ã€AlertingRule ã¨ RecordingRule ã®2ã¤ã®ã‚«ã‚¹ã‚¿ãƒ ãƒªã‚½ãƒ¼ã‚¹ã‚’ç”¨ã„ã¦ãƒã‚°ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ã‚’è©•ä¾¡ã—ã€æ¡ä»¶ã«ä¸€è‡´ã™ã‚‹å ´åˆã«ã‚¢ãƒ©ãƒ¼ãƒˆã‚’é€šçŸ¥ã™ã‚‹äº‹ãŒã§ãã¾ã™ã€‚ãã‚Œãžã‚Œã®ã‚«ã‚¹ã‚¿ãƒ ãƒªã‚½ãƒ¼ã‚¹ã¯ã€Prometheus ã®è¡¨è¨˜ã¨äº’æ›æ€§ãŒã‚ã‚Šã€Prometheus ã‚’çŸ¥ã£ã¦ã„ã‚‹å ´åˆã¯è¿½åŠ ã®å¦ç¿’ã‚³ã‚¹ãƒˆãŒä½Žã„ç‚¹ãŒç‰¹å¾´ã§ã™ã€‚

AlertingRule ã®ä¾‹

groups:
  - name: should_fire
    rules:
      - alert: HighPercentageError
        expr: |
          sum(rate({app="foo", env="production"} |= "error" [5m])) by (job)
            /
          sum(rate({app="foo", env="production"}[5m])) by (job)
            > 0.05
        for: 10m
        labels:
            severity: page
        annotations:
            summary: High request latency
  - name: credentials_leak
    rules:
      - alert: http-credentials-leaked
        annotations:
          message: "{{ $labels.job }} is leaking http basic auth credentials."
        expr: 'sum by (cluster, job, pod) (count_over_time({namespace="prod"} |~ "http(s?)://(\\w+):(\\w+)@" [5m]) > 0)'
        for: 10m
        labels:
          severity: critical

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®é€šçŸ¥å…ˆã® AlertManager

æ˜¨æ—¥ã€[ã‚¢ãƒ©ãƒ¼ãƒˆé€šçŸ¥ã®ã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ«(https://rheb.hatenablog.com/entry/2024/12/06/215706)ã¨ã„ã†ã“ã¨ã§ã€ä»¥ä¸‹ã®3ç‚¹ã‚’ç¢ºèªã—ã¾ã—ãŸã€‚

åˆ©ç”¨è€…ã¯ã‚¢ãƒ©ãƒ¼ãƒˆé€šçŸ¥ã‚’è¡Œã„ãŸã„ãŒã€é€šçŸ¥å…ˆã¯ç®¡ç†è€…ã«ã‚ˆã‚Šç®¡ç†ã•ã‚Œã‚‹
åˆ©ç”¨è€…ã¯ã‚¢ãƒ©ãƒ¼ãƒˆé€šçŸ¥ã‚’è¡Œã„ãŸã„ã€ã‹ã¤é€šçŸ¥å…ˆã‚‚åˆ©ç”¨è€…ãŒç®¡ç†ã—ãŸã„
ç®¡ç†è€…ã‚‚ã‚«ã‚¹ã‚¿ãƒ ã§ã‚¢ãƒ©ãƒ¼ãƒˆã‚’è¿½åŠ ã™ã‚‹ãŸã‚åˆ©ç”¨è€…ã¨è² è·ã‚’åˆ†æ•£ã—ãŸã„ï¼ˆåˆ©ç”¨è€…ã¯é€šçŸ¥å…ˆã®è¨å®šã‚’è‡ªåˆ†ã§ç®¡ç†ã—ãªã‘ã‚Œã°ãªã‚‰ãªããªã‚‹ï¼‰

é€šçŸ¥å…ˆã®ã‚³ãƒ³ãƒˆãƒãƒ¼ãƒ«ã‚’åˆ©ç”¨è€…ãŒè¡Œã†ã‹ç®¡ç†è€…ãŒè¡Œã†ã‹ã«ã¤ã„ã¦ã¯å…ˆæ—¥æ•´ç†ã—ãŸã®ã§ã€æœ¬æ—¥ã¯ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®é€šçŸ¥ãŒç®¡ç†è€…ç”¨ã® AlertManager ã‹åˆ©ç”¨è€…ç”¨ã® AlertManager ã‹ã‚’ç¢ºèªã—ã¦ã„ãã¾ã™ã€‚

ãƒ‘ã‚¿ãƒ¼ãƒ³ã¨ã—ã¦ã¯ 1 ã¨ 3 ã‚’ç¢ºèªã—ã¾ã™ã€‚

åˆ©ç”¨ã™ã‚‹ã‚¢ãƒ—ãƒªã¨ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ãƒ«ãƒ¼ãƒ«

ä¸€å®šæ™‚é–“æ¯Žã« ERROR ã¨ã„ã†æ–‡å—åˆ—ã‚’å‡ºåŠ›ã™ã‚‹ã‚¢ãƒ—ãƒªã‚±ãƒ¼ã‚·ãƒ§ãƒ³ã‚’åˆ©ç”¨ã—ã¾ã™ã€‚ç‰¹åˆ¥æ©Ÿèƒ½ã¯å¿…è¦ãªã„ã®ã§ã€ä»¥ä¸‹ã®Deploymentã§ã‚¢ãƒ—ãƒªã‚’ãƒ‡ãƒ—ãƒã—ã¾ã™ã€‚

cat <<EOF | oc apply -f -
apiVersion: apps/v1
kind: Deployment
metadata:
  name: error-logger
  labels:
    app: error-logger
spec:
  replicas: 1
  selector:
    matchLabels:
      app: error-logger
  template:
    metadata:
      labels:
        app: error-logger
    spec:
      containers:
      - name: error-logger
        image: busybox
        command: ["sh", "-c", "while true; do echo ERROR; sleep 1; done"]

EOF

ã¾ãŸã€ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã‚‚ ERROR ã¨ã„ã†æ–‡å—åˆ—ãŒã‚ã‚‹ä¸€å®šä»¥ä¸Šã®å‰²åˆã§å‡ºåŠ›ã•ã‚ŒãŸå ´åˆã«ã‚¢ãƒ©ãƒ¼ãƒˆã‚’ç™ºå ±ã™ã‚‹ã‚ˆã†è¨å®šã—ã¾ã™ã€‚

  apiVersion: loki.grafana.com/v1
  kind: AlertingRule
  metadata:
    name: sample-alert
    labels:
      example.jp/system: sample
  spec:
    tenantID: "application"
    groups:
      - name: SampleError
        rules:
          - alert: HighPercentageError
            expr: |
              sum(rate({kubernetes_namespace_name="log-sample", kubernetes_pod_name=~".*"} |= "ERROR" [1m])) by (job)
                /
              sum(rate({kubernetes_namespace_name="log-sample", kubernetes_pod_name=~".*"}[1m])) by (job)
                > 0.01
            for: 10s
            labels:
              severity: critical
            annotations:
              summary: This is summary
              description: This is description

ã‚¢ãƒ©ãƒ¼ãƒˆç›£è¦–ã®è¨å®šã®æœ‰åŠ¹åŒ–

LokiStack ã¯ãƒ‡ãƒ•ã‚©ãƒ«ãƒˆã§ã¯ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ãŒæœ‰åŠ¹ã«ãªã£ã¦ã„ãªã„ãŸã‚ã«ã€ä»¥ä¸‹ã®ãƒ•ã‚£ãƒ¼ãƒ«ãƒ‰ã‚’ LokiStack ã«è¨å®šã—ã¾ã™ã€‚Namespace ã‚»ãƒ¬ã‚¯ã‚¿ãƒ¼ã®ãƒ©ãƒ™ãƒ«ç‰ã¯ç’°å¢ƒã”ã¨ã«å¤‰ãˆã¦ãã ã•ã„ã€‚

...
spec:
...
  rules:
    enabled: true
    namespaceSelector:
      matchLabels:
        example.jp/alert: 'true'
    selector:
      matchLabels:
        example.jp/system: sample
...

ãƒ‘ã‚¿ãƒ¼ãƒ³1: ç®¡ç†è€…ç”¨ã® AlertManager ã¸ã®é€šçŸ¥

ã‚¢ãƒ©ãƒ¼ãƒˆé€šçŸ¥ã®ç¢ºèªã§åˆ©ç”¨ã—ãŸã‚³ãƒžãƒ³ãƒ‰ã«ã€Ruler ã®è¨å®šã‚’è¡¨ç¤ºã•ã‚Œã‚‹ã‚³ãƒžãƒ³ãƒ‰ã‚’è¿½åŠ ã—ãŸä»¥ä¸‹ã®ã‚³ãƒžãƒ³ãƒ‰ã‚’ä½¿ã£ã¦çŠ¶æ³ã‚’ç¢ºèªã—ã¦ã„ãã¾ã™ã€‚

echo "User: alerts"
oc exec -it alertmanager-user-workload-0 -n openshift-user-workload-monitoring -- amtool alert query --alertmanager.url http://localhost:9093

echo ""
echo "Cluster: alerts"
oc exec -it alertmanager-main-1 -n openshift-monitoring -- amtool alert query --alertmanager.url http://localhost:9093

echo ""
echo "User workload: alertmanager.yaml"
oc exec -it alertmanager-user-workload-0 -n openshift-user-workload-monitoring -- cat /etc/alertmanager/config_out/alertmanager.env.yaml; echo ""

echo ""
echo "Cluster: alertmanager.yaml"
oc exec -it alertmanager-main-1 -n openshift-monitoring -- cat /etc/alertmanager/config_out/alertmanager.env.yaml; echo ""


echo ""
echo "Cluster Logging: Ruler"
oc exec -it logging-loki-ruler-0 -n openshift-logging -- cat /etc/loki/config/config.yaml | egrep "^ruler:" -A 10; echo ""

ã¾ãšã¯ã€ç®¡ç†è€…ç”¨ã® Monitoring ã®è¨å®š

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    enableUserWorkload: true

åˆ©ç”¨è€…ç”¨ã® Monitoring ã®è¨å®šã¯ã‚¢ãƒ©ãƒ¼ãƒˆé€šçŸ¥ã«ã¤ã„ã¦ã¯ä¸è¦ã§ã™ã€‚

ã“ã®çŠ¶æ…‹ã§ã€ã‚¢ãƒ©ãƒ¼ãƒˆãŒç™ºç”Ÿã™ã‚‹ã¨æ¬¡ã®ã‚ˆã†ã«ãªã‚Šã¾ã™ã€‚åˆ©ç”¨è€…ã® Monitoring ã®è¨å®šã¯ãªã„ãŸã‚ã€AlertManager ã®æƒ…å ±å–å¾—ã¯ã‚¨ãƒ©ãƒ¼ã¨ãªã‚Šã¾ã™ã€‚ Loki ã® Ruler ã®è¨å®šã‚’è¦‹ã‚‹ã¨ https://_web._tcp.alertmanager-operated.openshift-monitoring.svc ã‚’å‚ç…§ã—ã¦ã„ã‚‹ã“ã¨ãŒã‚ã‹ã‚Šã¾ã™ã€‚ç®¡ç†è€…ç”¨ã® AlertManager ã‚’è¦‹ã¦ã„ã¾ã™ã€‚ã“ã®è¨å®šãŒç¤ºã™ã‚ˆã†ã«ã€ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®ã‚¢ãƒ©ãƒ¼ãƒˆ HighPercentageError ãŒç®¡ç†è€…ç”¨ã® AlertManager ã«é€šçŸ¥ã•ã‚Œã¦ã„ã‚‹ã“ã¨ãŒç¢ºèªã§ãã¾ã™ã€‚

User: alerts
Error from server (NotFound): pods "alertmanager-user-workload-0" not found

Cluster: alerts
Alertname                            Starts At                Summary                                                                                                    State
Watchdog                             2024-12-07 01:36:52 UTC  An alert that should always be firing to certify that Alertmanager is working properly.                    active
UpdateAvailable                      2024-12-07 01:38:06 UTC  Your upstream update recommendation service recommends you update your cluster.                            active
PrometheusOperatorRejectedResources  2024-12-07 01:42:32 UTC  Resources rejected by Prometheus operator                                                                  active
InsightsRecommendationActive         2024-12-07 01:44:33 UTC  An Insights recommendation is active for this cluster.                                                     active
KubeDaemonSetMisScheduled            2024-12-07 01:52:49 UTC  DaemonSet pods are misscheduled.                                                                           active
KubeDaemonSetMisScheduled            2024-12-07 01:52:49 UTC  DaemonSet pods are misscheduled.                                                                           active
KubeDaemonSetMisScheduled            2024-12-07 01:52:49 UTC  DaemonSet pods are misscheduled.                                                                           active
KubeDaemonSetRolloutStuck            2024-12-07 02:07:49 UTC  DaemonSet rollout is stuck.                                                                                active
KubeDaemonSetRolloutStuck            2024-12-07 02:07:49 UTC  DaemonSet rollout is stuck.                                                                                active
KubeDaemonSetRolloutStuck            2024-12-07 02:07:49 UTC  DaemonSet rollout is stuck.                                                                                active
PrometheusDuplicateTimestamps        2024-12-07 02:37:55 UTC  Prometheus is dropping samples with duplicate timestamps.                                                  active
ClusterNotUpgradeable                2024-12-07 02:38:10 UTC  One or more cluster operators have been blocking minor version cluster upgrades for at least an hour.      active
PrometheusDuplicateTimestamps        2024-12-07 02:38:25 UTC  Prometheus is dropping samples with duplicate timestamps.                                                  active
PodDisruptionBudgetAtLimit           2024-12-07 02:39:38 UTC  The pod disruption budget is preventing further disruption to pods.                                        active
HighOverallControlPlaneMemory        2024-12-07 05:17:04 UTC  Memory utilization across all control plane nodes is high, and could impact responsiveness and stability.  active
HighPercentageError                  2024-12-07 11:55:32 UTC  This is summary                                                                                            active

User workload: alertmanager.yaml
Error from server (NotFound): pods "alertmanager-user-workload-0" not found


Cluster: alertmanager.yaml
inhibit_rules:
  - equal:
      - namespace
      - alertname
    source_matchers:
      - severity = critical
    target_matchers:
      - severity =~ warning|info
  - equal:
      - namespace
      - alertname
    source_matchers:
      - severity = warning
    target_matchers:
      - severity = info
receivers:
  - name: Critical
  - name: Default
    slack_configs:
      - channel: '#openshift-on-kvm'
        api_url: >-
          https://hooks.slack.com/services/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
  - name: Watchdog
route:
  group_by:
    - namespace
  group_interval: 5m
  group_wait: 30s
  receiver: Default
  repeat_interval: 12h
  routes:
    - matchers:
        - alertname = Watchdog
      receiver: Watchdog
    - matchers:
        - severity = critical
      receiver: Critical


Cluster Logging: Ruler
ruler:
  enable_api: true
  enable_sharding: true
  alertmanager_url: https://_web._tcp.alertmanager-operated.openshift-monitoring.svc
  enable_alertmanager_v2: true
  enable_alertmanager_discovery: true
  alertmanager_refresh_interval: 1m
  wal:
    dir: /tmp/wal
    truncate_frequency: 60m
    min_age: 5m

ä»Šåº¦ã¯åˆ©ç”¨è€…ç”¨ã® AlertManager ã¸é€šçŸ¥ã‚’è¡Œã„ã¾ã™ã€‚åˆ©ç”¨è€…ç”¨ã®AlertManager ã®æœ‰åŠ¹åŒ–ã¨ AlergMangerConfig ã®è¨å®šã‚’æœ‰åŠ¹ã«ã—ã¾ã™ã€‚

ç®¡ç†è€…ç”¨ã® Monitoring ã®è¨å®š

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    enableUserWorkload: true

apiVersion: v1
kind: ConfigMap
metadata:
  name: user-workload-monitoring-config
  namespace: openshift-user-workload-monitoring
data:
  config.yaml: |
    alertmanager:
      enabled: true
      enableAlertmanagerConfig: true

ã“ã®çŠ¶æ…‹ã§ã€ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã‚’è¡Œã„ã¾ã™ã€‚

ç¢ºèªçµæžœã¯æ¬¡ã®ã¨ãŠã‚Šã¨ãªã‚Šã¾ã™ã€‚ç›£è¦–ã®é€šçŸ¥ãŒåˆ©ç”¨è€…ç”¨ã® AlertManager ã«å±Šã„ã¦ã„ã‚‹ã“ã¨ãŒç¢ºèªã§ãã¾ã™ã€‚ãŸã ã—ã€Ruler ã®è¨å®šãŒç›¸å¤‰ã‚ã‚‰ãšç®¡ç†è€…ç”¨ã® AlertManager ã‚’å‘ã„ã¦ã„ã¾ã™ã€‚ä½•ãŒèµ·ãã¦ã„ã‚‹ã®ã§ã—ã‚‡ã†ã‹ã€‚

User: alerts
Alertname            Starts At                Summary          State
HighPercentageError  2024-12-07 12:16:04 UTC  This is summary  active

Cluster: alerts
Alertname                            Starts At                Summary                                                                                                    State
Watchdog                             2024-12-07 01:36:52 UTC  An alert that should always be firing to certify that Alertmanager is working properly.                    active
UpdateAvailable                      2024-12-07 01:38:06 UTC  Your upstream update recommendation service recommends you update your cluster.                            active
PrometheusOperatorRejectedResources  2024-12-07 01:42:32 UTC  Resources rejected by Prometheus operator                                                                  active
InsightsRecommendationActive         2024-12-07 01:44:33 UTC  An Insights recommendation is active for this cluster.                                                     active
KubeDaemonSetMisScheduled            2024-12-07 01:52:49 UTC  DaemonSet pods are misscheduled.                                                                           active
KubeDaemonSetMisScheduled            2024-12-07 01:52:49 UTC  DaemonSet pods are misscheduled.                                                                           active
KubeDaemonSetMisScheduled            2024-12-07 01:52:49 UTC  DaemonSet pods are misscheduled.                                                                           active
KubeDaemonSetRolloutStuck            2024-12-07 02:07:49 UTC  DaemonSet rollout is stuck.                                                                                active
KubeDaemonSetRolloutStuck            2024-12-07 02:07:49 UTC  DaemonSet rollout is stuck.                                                                                active
KubeDaemonSetRolloutStuck            2024-12-07 02:07:49 UTC  DaemonSet rollout is stuck.                                                                                active
PrometheusDuplicateTimestamps        2024-12-07 02:37:55 UTC  Prometheus is dropping samples with duplicate timestamps.                                                  active
ClusterNotUpgradeable                2024-12-07 02:38:10 UTC  One or more cluster operators have been blocking minor version cluster upgrades for at least an hour.      active
PrometheusDuplicateTimestamps        2024-12-07 02:38:25 UTC  Prometheus is dropping samples with duplicate timestamps.                                                  active
PodDisruptionBudgetAtLimit           2024-12-07 02:39:38 UTC  The pod disruption budget is preventing further disruption to pods.                                        active
HighOverallControlPlaneMemory        2024-12-07 05:17:04 UTC  Memory utilization across all control plane nodes is high, and could impact responsiveness and stability.  active

User workload: alertmanager.yaml
route:
  receiver: Default
  group_by:
  - namespace
  routes:
  - receiver: alert-sample/slack-routing/sample
    matchers:
    - namespace="alert-sample"
    continue: true
receivers:
- name: Default
- name: alert-sample/slack-routing/sample
  slack_configs:
  - api_url: https://hooks.slack.com/services/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
    channel: '#openshift-on-kvm'
templates: []


Cluster: alertmanager.yaml
inhibit_rules:
  - equal:
      - namespace
      - alertname
    source_matchers:
      - severity = critical
    target_matchers:
      - severity =~ warning|info
  - equal:
      - namespace
      - alertname
    source_matchers:
      - severity = warning
    target_matchers:
      - severity = info
receivers:
  - name: Critical
  - name: Default
    slack_configs:
      - channel: '#openshift-on-kvm'
        api_url: >-
          https://hooks.slack.com/services/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
  - name: Watchdog
route:
  group_by:
    - namespace
  group_interval: 5m
  group_wait: 30s
  receiver: Default
  repeat_interval: 12h
  routes:
    - matchers:
        - alertname = Watchdog
      receiver: Watchdog
    - matchers:
        - severity = critical
      receiver: Critical


Cluster Logging: Ruler
ruler:
  enable_api: true
  enable_sharding: true
  alertmanager_url: https://_web._tcp.alertmanager-operated.openshift-monitoring.svc
  enable_alertmanager_v2: true
  enable_alertmanager_discovery: true
  alertmanager_refresh_interval: 1m
  wal:
    dir: /tmp/wal
    truncate_frequency: 60m
    min_age: 5m

å®Ÿã¯ã€Ruler ã‚³ãƒ³ãƒãƒ¼ãƒãƒ³ãƒˆã®è¨å®šãƒ•ã‚¡ã‚¤ãƒ«ã¯ã€æ›´ã«åˆ¥ã®ãƒ•ã‚¡ã‚¤ãƒ« /etc/loki/config/runtime-config.yaml ã«ã‚ˆã£ã¦è¨å®šãŒä¸€éƒ¨ä¸Šæ›¸ãã•ã‚Œã¦ã„ã¾ã™ã€‚ ä¸èº«ã‚’è¦‹ã‚‹ã¨ä»¥ä¸‹ã®ã‚ˆã†ã«ãªã£ã¦ã„ã¾ã™ã€‚

---
overrides:
  application:
    ruler_alertmanager_config:
      alertmanager_url: https://_web._tcp.alertmanager-operated.openshift-user-workload-monitoring.svc
      enable_alertmanager_v2: true
      enable_alertmanager_discovery: true
      alertmanager_refresh_interval: 1m
      alertmanager_client:
        tls_ca_path: /var/run/ca/alertmanager/service-ca.crt
        tls_server_name: alertmanager-user-workload.openshift-user-workload-monitoring.svc.cluster.local
        type: Bearer
        credentials_file: /var/run/secrets/kubernetes.io/serviceaccount/token

ã“ã¡ã‚‰ã§ã€é€šçŸ¥å…ˆã® Alertmanager ãŒåˆ©ç”¨è€…ç”¨ã¨ãªã£ã¦ã„ã‚‹ã“ã¨ãŒç¢ºèªã§ãã¾ã™ã€‚ ã“ã‚Œã§å®Ÿæ…‹ã¨è¨å®šã®å†…å®¹ãŒä¸€è‡´ã—ã¾ã—ãŸã€‚

ã¾ã¨ã‚

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®é€šçŸ¥ãŒã©ã¡ã‚‰ã®AlertManager ã«é€šçŸ¥ã•ã‚Œã‚‹ã‹å®Ÿéš›ã®è¨å®šã¨æŒ¯èˆžã„ã‚’ç¢ºèªã—ã¾ã—ãŸã€‚ã¾ãŸå®Ÿéš›ã«Podã«è¨å®šã•ã‚Œã‚‹å†…å®¹ã‚‚ç¢ºèªã—ã€æŒ¯èˆžã„ã¨ã‚ã£ã¦ã„ã‚‹ã“ã¨ã‚‚ç¢ºèªã§ãã¾ã—ãŸã€‚ ã“ã‚Œã§ã‚ˆã†ã‚„ãé€±æœ«ã‚’è¿Žãˆã‚‰ã‚Œãã†ã§ã™ã€‚

èµ¤å¸½ã‚¨ãƒ³ã‚¸ãƒ‹ã‚¢ãƒ–ãƒã‚°

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã‚’è©¦ã—ã¦ã¿ã‚‹

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–

ã¯ã˜ã‚ã«

OpenShift Cluster Logging

Ruler

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®é€šçŸ¥å…ˆã® AlertManager

åˆ©ç”¨ã™ã‚‹ã‚¢ãƒ—ãƒªã¨ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ãƒ«ãƒ¼ãƒ«

ã‚¢ãƒ©ãƒ¼ãƒˆç›£è¦–ã®è¨å®šã®æœ‰åŠ¹åŒ–

ãƒ‘ã‚¿ãƒ¼ãƒ³1: ç®¡ç†è€…ç”¨ã® AlertManager ã¸ã®é€šçŸ¥

ãƒ‘ã‚¿ãƒ¼ãƒ³3: åˆ©ç”¨è€…ç”¨ã® AlertManager ã¸ã®é€šçŸ¥

ã¾ã¨ã‚

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–

ã¯ã˜ã‚ã«

OpenShift Cluster Logging

Ruler

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®é€šçŸ¥å…ˆã® AlertManager

åˆ©ç”¨ã™ã‚‹ã‚¢ãƒ—ãƒªã¨ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ãƒ«ãƒ¼ãƒ«

ã‚¢ãƒ©ãƒ¼ãƒˆç›£è¦–ã®è¨­å®šã®æœ‰åŠ¹åŒ–

ãƒ‘ã‚¿ãƒ¼ãƒ³1: ç®¡ç†è€…ç”¨ã® AlertManager ã¸ã®é€šçŸ¥

ãƒ‘ã‚¿ãƒ¼ãƒ³3: åˆ©ç”¨è€…ç”¨ã® AlertManager ã¸ã®é€šçŸ¥

ã¾ã¨ã‚

ã¯ã˜ã‚ã«

ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ã®é€šçŸ¥å…ˆã® AlertManager

åˆ©ç”¨ã™ã‚‹ã‚¢ãƒ—ãƒªã¨ãƒ¡ãƒƒã‚»ãƒ¼ã‚¸ç›£è¦–ãƒ«ãƒ¼ãƒ«

ã‚¢ãƒ©ãƒ¼ãƒˆç›£è¦–ã®è¨å®šã®æœ‰åŠ¹åŒ–

ãƒ‘ã‚¿ãƒ¼ãƒ³1: ç®¡ç†è€…ç”¨ã® AlertManager ã¸ã®é€šçŸ¥

ãƒ‘ã‚¿ãƒ¼ãƒ³3: åˆ©ç”¨è€…ç”¨ã® AlertManager ã¸ã®é€šçŸ¥

ã¾ã¨ã‚