ITサービスマネージャ 論文演習(平成23年度 問2)

ITサービスマネージャ 論文演習(平成23年度 問2)

みなさん、こんにちは。ひろりんです。

ITサービスマネージャの論文演習2本目です。
今回は平成23年度の過去問、キャパシティ管理を題材にしました。

キャパシティ管理について

応答時間、処理時間などのITサービスの状況や、CPU使用率、ストレージ使用量などのITリソースの状況を常時監視し、現在及び将来のキャパシティに関する様々な問題に対して迅速かつ適切に対応することは、ITサービスマネージャの重要な業務である。

例えば、監視作業を通じて、次のような問題を発見することがある。

・特定の時間帯に、オンライン処理の応答時間が悪化する。
・特定のディスクにアクセスが集中し、Webアプリケーションがタイムアウトする。
・夜間バッチの処理時間が延び、翌日のオンラインサービス開始に影響する。

このような問題の解決に向けて、リソースの増強、システムのチューニングだけでなく、サービス内容の検証、業務内容の見直し提案などの様々な角度から、複数の対応策を検討する必要がある。実施する対応策の決定に当たっては、問題の重要度や緊急度、対応策の作業難易度や作業期間、費用などを総合的に評価しなければならない。

また、問題への対応策の立案・実施に加えて、キャパシティに関する要件の把握方法の改善、リソースの増強要求のキャパシティ計画への確実な反映、リソースの監視方法の変更などのキャパシティ管理方法自体の見直しを行うことも重要である。

あなたの経験と考えに基づいて、設問ア~ウに従って論述せよ。


設問ア
あなたが携わったITサービスの概要と、監視作業を通じて発見したキャパシティに関する問題及びその問題によるITサービスへの影響について、800字以内で述べよ。

設問イ
設問アで述べた問題の解決に向けて検討した対応策を列記せよ。また、実施することに決定した対応策の内容と、そう決定した理由は何か。800字以上1,600字以内で具体的に述べよ。

設問ウ
設問アで述べた問題に関連して行ったキャパシティ管理方法自体の見直し内容について、600字以上1,200字以内で具体的に述べよ。

(情報処理推進機構のサイトより引用)

Advertisement
あくまで個人的な演習論文です。合格論文ではありません。

1.私が携わったITサービスの概要と監視作業を通じて発見したキャパシティに関する問題及びその問題によるITサービスへの影響

1-1 私が携わったITサービスの概要
A社はモール型のオンラインショッピングサイト(以下、ECサイト)を運営している。ECサイトに参加しているテナントは約1万店である。ECサイトのサービス提供時間帯は、24時間365日である。私はA社の情報システム部、運用グループのITサービスマネージャとして、応答時間・処理時間などのITサービスの状況や、CPU使用率、ストレージ使用量などのITリソースの状況を常時監視し、現在および将来のキャパシティに関する様々な問題に対して迅速かつ適切に対応している。

1-2 監視作業を通じて発見したキャパシティに関する問題とITサービスへの影響
24時間365日の稼働であるためサービスの応答時間の遅延は顧客の機会損失をもたらす。1日のうち、サービスへアクセスするピーク時間帯は20時から22時までである。監視レポートを通じて、ピーク時間帯の応答時間の遅延が発生し始めていた。具体的には通常時は2秒であるのに対し、ピーク時には通常時の5倍、10秒かかることもある。今後、参加店舗や利用客の増加が見込まれることがA社の営業部の動向予測により判明している。さらに、キャンペーンとしてセールなどが実施されると、一時的にアクセスが集中して、ITサービスが停止すれば、莫大な機会損失をもたらすことになる。顧客とのSLAのサービスレベル維持のためにも早急な対応が求められている。

2.問題の解決に向けて検討した対応策と実施することに決定した対応策、また決定した理由

2-1 問題の解決に向けて検討した対応策
A社にはWebサーバ・APサーバ・DBサーバなどのサーバ群がある。ピーク時間帯および今後の参加店舗や訪問客の増加によりDBサーバの容量がひっ迫する。さらにWebサーバも同様である。これを前提に以下の対応策を考えた。
①CPU・メモリ増設
②負荷分散としてロードバランサの強化
③各サーバの増設
④商品別にセール時間帯を分散させる

2-2 実施することに決定した対応策と決定した理由
上記4つの対応策を決定するにあたり、費用・期間・影響度・将来性などを考慮して評価を行った。
費用面:④のセール時間帯の分散に関しては費用の心配はないものと考える。次いで、①~③であるが、③の各サーバの増設は多額の導入費用がかかる。中では①のCPU・メモリ増設が一番費用を抑えることができると判明した。
対応期間:④はすぐに対応できるので問題はない。①~③の中では、①が物品調達のみで対応期間は一番短い。
サービスへの影響度:④はサービス停止などの影響はないものと考える。①~③は物品交換を含むので、サービスへの影響が大である。
将来性:営業部の顧客数の動向予測に基づくと、①と②は暫定的な対策であり、根本的な対策は③が有効であると考える。

これら4つの総合評価で、まずは④は特別な問題はなく導入を決定した。その他については、物品交換を含む対応策であり、サービスへの影響はあるが、影響が出る時間帯をあらかじめ顧客にアナウンスし、ピーク時間帯を避けた上で、実施することを決定した。その中で、今回は①のCPU・メモリの増設を暫定的な対応策ではあるが、実施することと決定した。

3.キャパシティ管理方法自体の見直し内容
今回の問題は暫定的な対応策ではあるが解決した。しかし、根本的、恒久的な対応策とはならない。よって、今後は以下の対応策を導入する。
クラウドサーバを利用し、リソースの有効活用としてサーバ仮想化を実現する。またリソース監視については外部委託し、しきい値を超えた場合にはアラートを出すなど監視の精度を上げる。24時間365日、リアルタイム監視として外部委託先にて一次解決してもらい、問題解決に時間がかかる場合などは、エスカレーションとして、A社の運用担当へメール・チャット・電話などで連絡を入れてもらい対応策を協議する。
また、顧客にサイト満足度アンケートを実施する。その際、今回問題となった、応答時間の遅延についても、顧客の視点できちんと解決しているか定期的に確認することとする。

– 以上 –

文字数が足りないので、まだ不完全論文です。
今月あともう1本、論文を書き上げたいですね。

ひろりん