並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 16 件 / 16件

新着順 人気順

インシデント管理の検索結果1 - 16 件 / 16件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

インシデント管理に関するエントリは16件あります。 システム、 障害、 運用 などが関連タグです。 人気エントリには 『無料&オープンソースでシステム障害のレポートを一元化できるNetflix製インシデント管理ツール「Dispatch」』などがあります。
  • 無料&オープンソースでシステム障害のレポートを一元化できるNetflix製インシデント管理ツール「Dispatch」

    システムの保守・運用を行うインフラエンジニアにとって、障害対応は最も責任のある仕事のひとつであり、障害の監視や通知に関するツールは「PagerDuty」や「Zabbix」が有名です。そうした障害対応を助けてくれるツールとして、Netflixが無料のオープンソースソフトウェア「Dispatch」を公開しました。 Introducing Dispatch - Netflix TechBlog https://netflixtechblog.com/introducing-dispatch-da4b8a2a8072 About - Dispatch https://hawkins.gitbook.io/dispatch/ Netflix Dispatch - Reviews, Pros & Cons | Companies using Netflix Dispatch https://stack

      無料&オープンソースでシステム障害のレポートを一元化できるNetflix製インシデント管理ツール「Dispatch」
    • 「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty

      変化の激しい市場に対応するための開発手法として、アジャイル開発を導入する企業が増えるとともに、「DevOps」への注目が高まっています。しかし一方で「DevOpsという言葉は聞いたことはあるけれど、実際にはよくわからない」という方もいらっしゃるのではないでしょうか。DevOpsは「開発担当者と運用担当者が密に連携することで、柔軟でスピーディーな開発を実現する」というソフトウェア開発手法の一つです。DevOpsは単なるトレンドではなく、現代のソフトウェア開発において非常に重要な考え方でもあります。本記事では、DevOpsを一から理解したいという方にもわかるように、DevOps誕生の歴史を簡単に紐解きながら、DevOpsの考え方をご紹介します。また、アジャイル開発との違いやDevOps導入のメリット、実践のポイントなどをDevOpsを実践する3社の事例を交えて解説します。 「DevOps」とは

        「DevOps」とは?〜超基本から実践のポイントを解説〜|インシデント管理プラットフォーム│PagerDuty
      • インシデント管理で得られた教訓

        0 0 57 0 ジョーイ・ベイダ、ロス・デリンジャー共同執筆 Dropbox では、インシデント管理は信頼性への取り組みにおける重要な要素だと考えています。実際の障害発生に備えるために、カオス エンジニアリング(Chaos Engineering)などのプロアクティブな手法も採用していますが、インシデントへの対応の仕方がユーザー エクスペリエンスを大きく左右します。サイトの停止や製品の問題が発生する可能性がある場合、ユーザーにとって、それは一刻を争う事態です。 導入されて数年になるインシデント管理プロセスの主要コンポーネントですが、この領域には常に進歩する要素がありました。時間をかけて、技術的にも組織的にも、さらには手続き的にも細かな調整を加えてきました。 この投稿で触れているのは、 Dropbox がインシデント管理で得た教訓の一部について、深く掘り下げて説明します。インシデントにおけ

          インシデント管理で得られた教訓
        • インシデント管理の市場でオープンソースが急速に台頭

          Tiernan Ray (Special to ZDNET.com) 翻訳校正: 佐藤卓 吉武稔夫 (ガリレオ) 2024-12-25 09:44 システム障害やアプリケーションエラーの検出と対応でIT部門を支援する「インシデント管理およびインシデント対応」ツールの市場には、PagerDutyなどいくつかの大手商用メーカーが存在する。その中には、「オブザーバビリティ」(可観測性)を前面に押し出した製品を手がけるDatadogやDynatraceなどの各種メーカーも含まれる。 だが、この市場でもついにオープンソースソフトウェアのアプローチが採用されつつあると、JPMorgan Chase & Coのソフトウェアアナリストらが公開したレポートで指摘した。レポートによれば、「AIOps」など業界の新たなアプローチの波に乗って登場したオープンソースの製品が、PagerDutyやその他の企業に本格的

            インシデント管理の市場でオープンソースが急速に台頭
          • 燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty

            DevOpsチームの中で、業務としての「オンコール対応プロセス」はよく話題に上ることがあります。では一方で「オンコール対応に従事するチームメンバーが抱える個人的な悩みや問題」についてはどうでしょうか? 「オンコールシフト中のストレスや不安にどう対処したらよいか?」 「オンコールローテーションと子供の世話といったメンバーの個人的な事情を両立させるにはどうしたらよいか?」 「燃え尽きや離職といった問題は、チームメンバー同士の思いやりで解決できるのか?」 オンコール対応のプロセスが適切にマネジメントされていたとしても、オンコール対応チームにおけるこういった悩みは尽きません。そこでPagerDutyでは、2021年11月から12月にかけて、9つのチームからオンコール担当のエンジニアを集め「担当者の現場目線から見たオンコール対応についてのディスカッション」を実施しました。チームメンバーがオンコール対

              燃え尽きエンジニアを救う「オンコール最適化、5つの教訓」|インシデント管理プラットフォーム│PagerDuty
            • AWS Systems Manager Incident Manager でインシデント管理が可能になりました。電話連絡もできます! | DevelopersIO

              AWS Systems Manager Incident Manager でインシデント管理が可能になりました。電話連絡もできます! AWS Systems Manager でインシデント管理が可能になりました。 発生したインシデントをメール、SMS、電話で連絡することが可能です。 こんにちは。 ご機嫌いかがでしょうか。 "No human labor is no human error" が大好きな ネクストモード株式会社 の吉井です。 AWS 上でシステムを稼働させている皆様はどのようなインシデント管理を実装していますでしょうか。 SaaS 製品を活用されている方は多くいると思います。自己管理 (EC2 上) のソリューションを展開しているケースもあるかと思います。 また、複雑な要件が無い場合は CloudWatch と SNS で完結することもあると思います。 アメリカ時間の2021

                AWS Systems Manager Incident Manager でインシデント管理が可能になりました。電話連絡もできます! | DevelopersIO
              • PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社

                Incident ManagementAIや自動化を活用し、インシデント対応を効率化することで、運用・開発チームの担当者は少ない労力で速やかに障害を解決できるようになります。 Customer Service Opsカスタマーサービスチームのオペレーションを最適化し、顧客満足度の向上と業務効率化を実現します。社内のインシデント対応状況をリアルタイムで把握し、顧客に伝えることで顧客満足度を向上させます。

                  PagerDuty|インシデント管理プラットフォーム|PagerDuty株式会社
                • オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty

                  インシデント管理における「オンコール対応の重要性」オンコールとは、勤務時間外を含めて緊急対応が必要なインシデントに対応できるように、対応者や担当時間を決めておく仕組みです。 現在は、24時間365日稼働が前提となるシステムが多いなか、サービスの信頼性を守るには迅速なインシデント対応が求められます。仮にサービスが停止することになれば、機会喪失や顧客満足度低下を招くことになりかねません。そのため、インシデント管理においては速やかに対応が行える、オンコール対応が重要です。 なお、システムで起こり得るインシデントの種類は、以下の記事でも解説しています。 「インシデント対応」とは? 〜効率的な体制構築のポイントを解説〜 また、インシデント管理については以下の記事で解説しているので、ぜひ併せてご覧ください。 「インシデント管理」とは?〜システム障害を未然に防ごう〜 エンジニアがオンコール対応に不安を感

                    オンコール対応とは?〜現場担当者が語るオンコール対応の不安解消方法を解説!~|インシデント管理プラットフォーム│PagerDuty
                  • インシデント管理とは?〜システム障害を未然に防ごう〜|インシデント管理プラットフォーム│PagerDuty

                    よくある「インシデント管理」の悩みシステム運用には、運用担当をはじめ、開発担当やその双方を担当するDevOpsエンジニアなど様々な役割の人々が関わっています。ここでは、インシデント管理やインシデント対応にあたって、主にシステムを運用する企業が抱える、よくある課題や悩みを3つ紹介します。 1. インシデントへの対応開始・解決の複雑化ITシステムを運用するために自社のサーバを利用するオンプレミスや、複数事業者のクラウドシステムを混在させて利用するマルチクラウドなど、利用するサービスそのものが多岐にわたり、年々複雑になる傾向が強まっています。 自社が運用するシステムが複雑になったことで予期せぬ課題が増え、様々な監視ツールから送られてくる大量のアラートに対応しなくてはいけません。監視ツールが異なると、各アラートの詳細や関連情報を調査するためのツールも異なり、インシデントを特定するまでに時間を要した

                      インシデント管理とは?〜システム障害を未然に防ごう〜|インシデント管理プラットフォーム│PagerDuty
                    • 「SRE(サイト信頼性エンジニアリング)」とは?〜DevOpsとの関係・実践ポイントを解説〜|インシデント管理プラットフォーム│PagerDuty

                      ユーザーニーズの変化が激しい現代において、アジャイル開発を導入するなどして開発スピードを向上させることが重要です。しかし、スピーディーな開発をめざす一方で、システムの安定性の維持が難しいと悩んでいる方もいるのではないでしょうか。そこで注目されているのが、開発の高速化とシステムの安定性を両立するための方法論である「SRE(Site Reliability Engineering・サイト信頼性エンジニアリング)」です。この記事では、SREの基本を知りたい方に向け「概要」「主要な指標」「DevOpsとの違い」「SRE実践におけるポイント」といったポイントをわかりやすくご紹介します。 SREとは 「SRE(Site Reliability Engineering)」とはシステム運用方法の一つで、日本語では「サイト信頼性エンジニアリング」と言います。Webサイトの安定的な運用を支えるための方法論とし

                        「SRE(サイト信頼性エンジニアリング)」とは?〜DevOpsとの関係・実践ポイントを解説〜|インシデント管理プラットフォーム│PagerDuty
                      • 障害対応入門記事まとめ〜システム運用担当者になったらまず読むべき記事を厳選!〜|インシデント管理プラットフォーム│PagerDuty

                        概念理解編1️⃣ システム障害とは?〜企業が考えるべきリスク対策とインシデント管理〜企業にとって甚大な損失とともに伝えられるシステム障害のニュースを耳にすると、自社のシステム障害対策に不安を覚える方もいるのではないでしょうか。現代のシステム障害対策では、予防策に加え、より迅速な障害対応が求められます。システム障害が発生すると大きな損失につながり、1分1秒でも早い復旧が望まれるためです。そこで、システム障害の対策と対応において重要性が増しているのが「インシデント管理」です。適切なインシデント管理は、サービスの正常な利用を妨げるあらゆる事象への素早い対応を実現し、迅速な復旧につながります。本記事では、システム障害のリスクや対応策、そしてシステム障害への対策を考える際に知っておきたい「インシデント管理」とは何かを解説します。 ✅記事はコチラ 2️⃣ 「DevOps」とは?〜超基本から実践のポイン

                          障害対応入門記事まとめ〜システム運用担当者になったらまず読むべき記事を厳選!〜|インシデント管理プラットフォーム│PagerDuty
                        • 2024å¹´7月の世界的な大規模システム障害から学ぶこと〜企業が留意すべき未来に向けたベストプラクティス〜 | インシデント管理プラットフォーム│PagerDuty

                          2024年7月19日(金)に発生した、世界規模のシステム障害(インシデント)においてPagerDutyが分析したところ、インシデント発生は通常と比較して最大150%増加しており、PagerDuty上での復旧作業には通常よりも200%多い人員が投入されたことがわかりました。 この数ヶ月間で重大インシデントは前年比で40%増加しており、さらに、PagerDutyが2024年6月に公表したグローバル調査によると、ITリーダーの90%がシステム障害に起因する混乱が企業に対する顧客の信頼を低下させたと回答しています。また、ITリーダーの69%が障害が発生した際に顧客からの信頼を保つための投資が不足しているとも回答しています。 日々の業務、日常生活がデジタル化されている今日において、このようなインシデントはもはや避けることが難しく、インシデント発生はある種の”New Normal”であると言えるでしょ

                            2024年7月の世界的な大規模システム障害から学ぶこと〜企業が留意すべき未来に向けたベストプラクティス〜 | インシデント管理プラットフォーム│PagerDuty
                          • ルーティン業務を劇的に改善する「Runbook(ランブック)」とは?|インシデント管理プラットフォーム│PagerDuty

                            オペレーション業務には、予期せぬ業務の発生がつきものです。「すぐには解決できないインシデントや問題」に直面することも珍しくありません。その際に、もし担当者自身ですぐに判断や対応ができない場合、どうすればよいでしょうか?例えば、「解決策を見つけるためにGoogleで検索する」「社内Wikiやドキュメントに目を通す」「共有スクリプトの場所を探す」「同僚に尋ねる」など、ありとあらゆる方法を試されるかもしれません。あるいは別の部署へエスカレーションする方もいらっしゃるかも。問題解決に向けた行動には実にさまざまな方法があります。初めて発生した問題であれば、試行錯誤することもあります。しかし、よく発生する問題で何度も同じ解決策を調べていることは、効率性の観点から見直すべきかもしれません。さらにいうと、重大なインシデント対応の最初の段階で、経験の浅い担当者が最も効率が良いとは言えない手段で、時間をかけて

                              ルーティン業務を劇的に改善する「Runbook(ランブック)」とは?|インシデント管理プラットフォーム│PagerDuty
                            • インシデントコマンダーとは? 〜現代のIT運用には必須!その役割と理由〜|インシデント管理プラットフォーム│PagerDuty

                              近年、インシデント対応への注目度が非常に高まっています。 2024年1月に日本国内で開催された、有志によるインシデント対応の勉強会には500人を超える参加者が集まりました。また、2月に開催された別のイベントにおいても380人を超える参加者となりました。筆者も双方のイベントに参加しましたが、企業の大小や業種の違いに関わらず、運用担当者のインシデントに対する課題感が高まっているように感じられました。 2010年代からのスマートフォンの普及により、大人から子供まで誰もが息をするかのようにインターネットに接続し、Web閲覧やゲーム、動画視聴、SNSを楽しんでいます。企業においてもITの活用は当たり前となり、人々の生活がデジタルで変わっていくにつれDXの必要性が叫ばれるようになりました。 一方で、そのような高度なサービスの実現に必要な技術は、ますます複雑性を増しています。オンプレミスからクラウドの以

                                インシデントコマンダーとは? 〜現代のIT運用には必須!その役割と理由〜|インシデント管理プラットフォーム│PagerDuty
                              • インシデントコマンダー業務解説~仕事の流れと必要な資質~|インシデント管理プラットフォーム│PagerDuty

                                おさらい: インシデントコマンダーとは前回のおさらいをしましょう。インシデントコマンダーを一言で説明すると インシデントを解決に導く指揮官 です。重大なインシデントが発生した際、インシデント対応プロセスの全体を管理し、関係者間の調整とコミュニケーションを行い、出来る限り早くインシデントを解消に導くのが責務です。 インシデントコマンダーの役割意思決定作業担当への指示作業要員や関連部署の招集・体制構築ステークホルダーとのコミュニケーション状況の交通整理インシデントの発生と収束の宣言ポストモーテムの作成指示インシデント発生時の対応の流れインシデントが発生した際、インシデントコマンダーは状況を素早く把握し、適切な対応を取ることが求められます。ここでは、インシデントコマンダーが進めるべき対応の流れを説明します。 1️⃣ 状況の把握(Size-Up)まず、インシデントの症状を特定し、影響範囲を確認しま

                                  インシデントコマンダー業務解説~仕事の流れと必要な資質~|インシデント管理プラットフォーム│PagerDuty
                                • Azure の運用を支える AIOps #2【インシデント管理編】

                                  この記事は「Azure の運用を支える AIOps」シリーズの第2回です。今回は、Microsoft Azure のインシデント管理システムで活用されている AIOps のテクノロジーを紹介します。AIOps の概要や Microsoft と AIOps の関わり方については、第1回をご覧ください。 AIOps と インシデント管理 インシデント管理とは インシデント管理(Incident Management)とは、システムやサービスに発生した問題(インシデント)を、迅速かつ効果的に解決するためのプロセスです。単にインシデントを解決するだけでなく、その原因を特定し、将来のインシデントを予防するための対策を講じることも含まれます。そのため、インシデント管理は継続的な取り組みであり、IT サービスマネジメントの重要なプロセスの一つとして認識されます。 インシデント管理のフローには、以下のよう

                                    Azure の運用を支える AIOps #2【インシデント管理編】
                                  1

                                  新着記事