はじめに
先日、無事Synergy!はオンプレ環境からAWS環境へのクラウド移行を完了いたしました。 それにともない、オンプレ環境の利用を終了していったのですが、思った以上に大規模な作業となりました。 少しその舞台裏についてお話できればと思います。
オンプレの維持費用
オンプレ環境を維持するために必要な費用の内、大きな割合を占めていたのは以下の項目です。
- データセンター利用料金(スペース利用料や電源利用料など)
- インターネット回線費用
- ハードウェア保守費
- ソフトウェア保守費
クラウド移行が完了したタイミングで、オンプレ環境がすべて利用終了となればよかったのですが、お客様との専用線やサービスの管理、監視のための機器など、一部の機器は引き続き利用することになりました。利用終了のタイミングに合わせてすべての撤去ができれば、停止時の事故などのリスクがなく、気持ちよく作業ができるのですが、維持費用のコストが大きすぎるため、利用終了した機器から段階的に撤去を行っていくことになりました。
撤去計画の策定
計画は撤去予定日の4か月前から開始しました。 時系列順に項目を挙げてみます。
4か月前着手
- Synergy!で使用していた機器、および管理・運用のために使用していた機器で廃棄する機器の確定
- 廃棄対象機器リストの作成
3か月前
- 廃棄業者選定
- 減価償却のための社内処理
- データセンター利用解約
- インターネット回線解約
- 段階的撤退のための整理
2週間前
- サーバ機器停止
3日前
- ストレージ、ネットワーク機器停止
- 撤去事前作業
当日
- 撤去
後日
- インターネット回線撤去工事
- データセンター設備引き渡し
機器リストの作成は、撤去サービスのみで利用しているもののリストアップは簡単なのですが、共用利用している基盤やネットワーク機器などが廃棄できるかの検討は大変でした。今回は一部が残るため、どうしても判断がつかない機器に関しては数量が少なかったこともあり残すという判断をしました。それでもサーバ、ストレージおよびネットワーク機器の総台数100台以上、重さにして5t近くを機器リストに記載しました。
作成したリスト(数量、重量、HDD数)を元に廃棄業者の見積もりや減価償却を行いました。また、データセンター利用契約の解約、インターネット回線契約の解約、廃棄業者の発注などは2か月程度処理の時間がかかることを想定して、3か月前に着手しています。(1か月前通知で問題ないと確認は取っていますが、余裕が欲しくて2か月前には解約処理を実施しました。)
段階的撤退のための整理
クラウド移行が完了したサービス基盤から順次停止を行い、不要な回線の解約、データセンター利用率を下げる作業を進めていったのですが、長年運用してきたオンプレ環境では思いもよらないサービスが相乗りしていたりと、予定通りには停止できない事が多くありました。その都度、回線経路の見直しや、基盤の移行などの整理が必要となり、想像以上の工数が必要になりました。初期設計と、運用していく中でのルールの順守の大切さが身に染みる事例となりました。
停止作業と撤去事前作業
停止しても復旧が容易なサーバ機器から順次停止を行っていき、遠隔で復旧が困難なストレージ、ネットワーク機器はデータセンターに待機した上で停止を行いました。また撤去当日の作業量軽減のため、撤去対象に養生テープで目印をつける、電源ケーブルおよびLANケーブルを抜線するなどの事前準備を行いました。
応援に来てくれた若手エンジニア
撤去作業はデータセンターのファシリティに詳しいメンバーで行ってきたのですが、今回の物量はさすがに手に余るため、活力に溢れる若手エンジニアに支援に来てもらえることになりました。詳しいメンバーと若手エンジニアでペアが組めると指示が出しやすかったのですが、応援に来てくれる方が人数が多かったため、作業ごとに若手エンジニアをアサインし、最初にやり方を教えて、困ったときは適時聞いてもらうスタイルで進めました。
主にお願いした作業は以下になります。
- HDD取り外し※
- アンラック
- PCI-SSD取り外し※
- ラッキング用レーン取り外し
- LANケーブル、電源ケーブル撤去
※ データセンター敷地内で廃棄業者が粉砕処理を行うため、HDDおよびPCI-SSDの取り出しを行っています
一見簡単そうに見えますが、たとえば以下のようなトラブルが発生しました。
- HDD取り外し作業は、粉砕処理を行うため取り外したHDDとHDDトレイを分離する必要があるが、HDDトレイの固定方法がメーカー、機種、世代によって異なる。固定方法方が不明で、取り外せないHDDトレイがあった。(ついでにネジを外すのが体力的にも大変で、途中から電動ドリルを採用しました。)
- アンラック作業で固定方法がメーカー、機種、世代によって異なるため、取り外せるはずと思って力を入れたらラックレールを曲げてしまった。
- PCI-SSDを複数種類を利用していたため、取り外し漏れが発生してしまい、慌てて対象機器をすべて開けなおした。(種類毎に形状が大きく異なっていたことが漏れた原因)
トラブルはありましたが、事前準備として対象に目印をつけていたことや電源を停止していたことで、概ね順調に作業ができたことはとてもよかったです。 クラウドが主流になることで実機を見ることや触る機会はもっと減ると思いますが、今回の作業が応援に来てくれた若手エンジニアの良い経験になってくれていると嬉しいです。
それでもトラブルや想定外は発生する
手順書の作成や読み合わせなど念入りに準備を進めたものの、それでもトラブルや想定外は発生しました。 とくに物理的撤去の際に困ったのが以下の2つです。
- SSDの破砕
- LANケーブル、電源ケーブルの撤去
弊社では廃棄の際、ストレージは読み書き不可の状態とし、破砕証明書を貰うという運用を行っています。ところがSSDが物理破壊装置に入らなかったり、NVMeに対応したSSDのカバーが頑丈すぎて破砕用のドリルの方が壊れたりしました。そのため、ストレージの廃棄のやり直しを行うことになってしまいました。SSDは機器毎に形状や半導体素子メモリの位置が異なることが多かったので、気をつけておくべきでした。
LANケーブルおよびFCケーブルをきれいな状態で撤去しようと頑張っていたのですが、予定時間内で終わる気配がなく、切断を行うことで作業ペースを上げました。断線した状態でも廃棄業者の回収に問題はないかの確認を最初に取っておけば、もっと楽に作業を進められたと思います。
廃棄する機材をどのような状態で引き渡すのか、またどのような状態まで引き取ってもらえるのかは最初に確認しておくのが良いとの教訓を得ました。
導入時と撤去時の違い
弊社の導入した機器の中でも一番特殊なラックを例として、導入時と撤去時の違いについて触れたいと思います。このラックはサーバ、ストレージ、ネットワークなどのコンポーネントを含んだ製品でした。
導入時は、設置場所や電源の確保、耐荷重の確認、冷却システムが基準を満たしているかなどデータセンターと綿密な事前確認を行った上で、搬入日をむかえました。ラックにサーバ、ストレージ、ネットワークの各機器ががラッキングされた状態(合計重量が約700kgほど)でデータセンターに輸送され、データセンターの設備を傷つけないように養生をしっかりした上で、主にベンダーと運送業者の10数人で設置作業を行いました。
一方撤去は当初の計画ではアンラックした後に、自分たちと廃棄業者で持ち出す予定だったのですが、アンラックする方法がわからないものがいくつもありました。ラッキングされた状態のラックを移動させるのはなかなか大変でしたが、幸い搬出作業は無事に完了できました。
アンラックできなかった一番の原因は、固定に使用されているネジが特殊で取り外せなかったことにありました。事前に取り外しを試すことは難しいため、事前準備として必要な工具を把握しておく必要があったのですが、一般的な工具で足りるだろうと思い込んでいたのが失敗でした。
導入時はベンダーの支援が得られることが多いですが、撤去時に支援が受けれるかの可否はあらかじめ把握しておけると良いと感じました。
さいごに
家の引っ越しでやるべきリストはネット上にたくさんありますが、データセンターの引っ越しや撤去でやるべきリストはなかなか見当たらなかったので記事にしてみました。5t のサーバを廃棄する予定がある方の参考になれば幸いです!