みなさん、こんにちは。ひろりんです。
ITサービスマネージャの試験まで残り2週間です。
論文演習4本目としてサービスレベル、特に「SLA」に関する論文を書いてみようと思います。
サービスレベル(SLA)
例のように、情報処理推進機構(以下、IPA)の公式サイトより問題文を引用します。
情報システムにおけるサービスレベルについて
近年は、企業の内外を問わず、情報システム部門の提供するサービスの品質を数値化した、いわゆるサービスレベルが運用業務の実施内容の評価指標として活用される傾向にある。
システム管理エンジニアがユーザと合意の上で設定するサービスレベルの項目としては、例えば次のようなものがあり、それぞれの基準値も合意しておく必要がある。
- オンラインサービスの提供時間
- 情報処理作業依頼の受付からアウトプットの納品までの時間
- 障害復旧時間
- ヘルプデスクへの問合せに対する応答時間
システム管理エンジニアは、サービスレベルの維持に責任があり、状況を監視しておくことが必要である。サービスレベルの基準値と実測値とがかい離している場合は、状況を分析の上、対策を立案し実施しなければならない。また、サービスレベルの維持状況についてユーザに説明・報告し、ユーザからの評価を確認することも重要である。
あなたの経験に基づいて、設問ア~ウに従って論述せよ。
設問ア
あなたが携わった情報システムにかかわるサービスの概要と、重要と考えたサービスレベルの項目の設定理由と基準値について、800字以内で述べよ。設問イ
設問アで述べたサービスレベルについて、その維持のためにどのような方策を講じたか。工夫した点を中心に具体的に述べよ。設問ウ
設問イで述べたサービスレベル維持のための方策をどのように評価しているか。今後の課題は何か。それぞれ簡潔に述べよ。(情報処理推進機構のサイトより引用)
1.サービスの概要と重要と考えたサービスレベルの項目の設定理由と基準値
1-1 サービスの概要
A社はモール型のショッピングサイト(以下、ECサイト)を運営している企業である。ECサイト運営を含むインターネット事業はA社の売上の約7割を占める主要事業である。私はA社の情報システム部、運用チームのITサービスマネージャであり、リソース管理・インシデント管理・問題管理などの責任者である。ECサイトのサービス提供時間は24時間365日である。現在、ECサイトへの加盟店は約1万店、利用客は年間で約100万人である。
1-2 重要と考えたサービスレベルの項目の設定理由と基準値
ECサイト運営を含むインターネット事業はA社の主要事業であり、何かトラブルが発生すると、企業の存続にかかわる恐れがある。そのため、サービスレベルの設定、維持は非常に重要である。具体的にはSLAを作成し、その中でも重要な項目として以下の項目と基準値を設定している。
①サービス稼働率:99.9%
②サービス応答時間:2秒以内
③障害時の復旧時間(RTO):30分以内(大規模災害は別途設定)
設定理由は顧客満足の最大化を果たすためである。なぜならば、顧客満足を果たせなければ、加盟店や利用客の機会損失を生むことになり、その結果A社の機会損失にもつながるからである。A社の信用が失墜すれば、加盟店や利用客が他社のサービスへ流れてしまう恐れもある。さらに、加盟店から損害賠償を求められる可能性もある。
2.サービスレベル維持のための方策と工夫した点
サービス稼働状況は、情報システム部の運用チームにて常時監視をしているが、1-2で記述した基準値に達する直前で何か対策を取ろうとしても、すでに手遅れになる場合が考えられる。そのため、基準値の前に段階的に「しきい値」を設けることにした。なぜならば、しきい値を設けることにより、障害の兆候を早期に把握することができると考えたからである。具体的には、そのしきい値にも段階的に幅を設けて「正常」・「警告」・「危険」として、「警告」と「危険」ラインに入ったときは、アラートを運用担当者および関係者に通知することにした。「正常」から「警告」ラインへ入った段階で、サービスレベルへの影響を予測し、早期に対策を講じる。さらに「警告」から「危険」ラインに入った段階では、担当者は上長へもエスカレーションして、サービス維持のための対策を講じる。
また突発的にタイムセールなどが開催され、一時的にECサイトへの利用客のアクセスが集中することがある。サービス停止を避けるためにも、A社の営業企画部からタイムセールなどの事前情報、さらに今後の加盟店数・利用客数の動向などの予測情報もあらかじめヒアリングしておく。それにより、今後のサーバーなどのリソースの追加などに早い段階で準備することができる。
日頃からインシデント発生に備えて「訓練」を実施しておくことも必要である。マニュアルがあったとしても、異常時にはきちんと対応できない場合が多い。定期的に訓練を実施することで、さまざまなインシデントへの対応を身をもって体験しておくことは非常に有益であると考える。また、訓練後は訓練対象者全員で振り返りをすることで、インシデント対応方法の共有もしている。訓練対象者には情報システム部の運用チームだけではなく、営業企画部やサービスデスクの担当者なども参加し、顧客や利用客の役をやってもらったり、実際の業務にできる限り近づけて訓練を行うこととした。
3.サービスレベル維持のための方策の評価と今後の課題
3-1 サービスレベル維持のための方策の評価
加盟店には月に1回、定期的にサービスの運用状況を報告している。また、その際に、顧客満足アンケートを実施し、SLAの項目を中心にヒアリングをしている。それによると、顧客からの評価はおおむね良いものであった。しかし、SLAの基準値には問題はないが、ECサイトにアクセスできない時間帯もあり、その際はA社サービスデスクへの問合せやクレームが殺到した。主な内容は「アクセスできない原因と復旧時間」であった。「何が起こっているのかわからない」という状況は人を非常に不安にさせるものである。
A社内でのインシデント対応訓練では、マニュアルが存在していても、それがどこにあるのかわからないという根本的な問題が判明した。またマニュアルの内容自体が文章ばかりなど複雑で、インシデント対応には適さないマニュアルだと判明した。
3-2 今後の課題
アクセス集中などによりSLAに影響しない、一時的にサービス停止になった場合も、顧客のメールアドレスへ障害状況をメール配信し、その中にサービス復旧の目安時間を記載することにした。またサービスが再開した際にもメールを配信し、サービス停止の原因と再発防止策を記載することにした。顧客には不安を感じさせない対応が今後も必要であると考えている。
マニュアルについては、誰でもが閲覧できるところに紙のマニュアルを常備するとともに、社内のイントラネットでもわかりやすい階層に保存しておくことで、いつでも確認できるようにした。また、マニュアルの内容については、視覚的なものを増やし、運用管理が不慣れな担当者でもすぐに理解できる内容に今後改めることにした。
– 以上 –
まとめ
これで4本の論文を演習したことになります。
SLAについて、今回はこちらの書籍も参考にしました。
クラウドの知識をもう少し勉強しておこうかな。
あと、セキュリティの標的型攻撃について。情報漏洩対策も必要だろうか。。
ひろりん
コメント