特集:「惰性をやめる、慣習を疑う」こんどこそ楽になる運用管理

ITがビジネスを加速させる昨今、多くの新規サービスが開発、リリースされ、運用管理者には安定したサービスの供給や、利用動向のログの解析などが求められている。だが、これに伴い解析すべきログや拾うべきアラートも増す一方となり、多大な負担が運用管理者の身に振り掛かっている。また、新規サービス開発でのクラウド活用、基幹システムのクラウド移行が進み、可用性や柔軟性といったクラウドならではの特性を生かす、いわゆるクラウドネイティブなアプリケーションの運用が増え、コンテナやマイクロサービスといった複雑な運用管理も求められている。しかも、オンプレミスに残さざるを得ないサーバとのハイブリッドな運用も並行しなければならない。このような中、従来の手法や技術では、とうてい運用管理業務が回らず、ビジネスに貢献することができないのが実情だ。現状を打破するためには、従来の慣習を疑い、新しい技術や自動化、AI(人工知能)などを取り入れ、現状に合った新たな運用管理の手法を実践することが大前提となる――本特集では、運用管理の最新技術や使いこなし方を徹底的に深掘りする。

TopStory

特集:「惰性をやめる、慣習を疑う」こんどこそ楽になる運用管理(5):

これからの時代、クラウドネイティブは正義だ――そう信じて移行を推進するとき、ぜひ周囲を見渡してほしい。環境の変化に戸惑い、生産性が低下している人たちがいるかもしれない。運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」のNTTコミュニケーションズの講演では、そんな戸惑う人たちに寄り添い、運用しやすい環境作りの工夫が紹介された。

(2021年9月24日)
特集:「惰性をやめる、慣習を疑う」こんどこそ楽になる運用管理(4):

Kubernetesのクラスタ数は10以上あり、その配下にある400以上のノードが支えるヤフーのIaaS基盤。その規模故にコンポーネントの管理に使うKubernetesとHelmのバージョンアップは2017年から行っていなかった。そして今、止まった時を動かすべく、新卒1、2年目のエンジニアが大規模環境のアップデートに挑む――運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」の同社による講演から、大規模Kubernetes環境運用のヒントを学ぼう。

(2021年9月14日)
特集:「惰性をやめる、慣習を疑う」こんどこそ楽になる運用管理(3):

社内でのクラウド活用が加速する他、DX案件の中でクラウドサービスを利用するケースが増えるNTT東日本。クラウド技術者の育成が急務となり、育成の場として選ばれたのはAWS上に構築されたハンズオン環境だった。しかし、従量課金モデルの場合、管理を少しでも怠れば、高額な料金が請求されるリスクがある――運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」の同社による講演では、AWS活用におけるコスト管理のポイントが明かされた。

(2021年9月7日)
特集:「惰性をやめる、慣習を疑う」こんどこそ楽になる運用管理(2):

運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」。NTT東日本のセッション「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」から、AWS初心者が運用監視の定型業務を自動化する際の流れ、苦労するポイントを学ぶ。

(2021年8月31日)
特集:「惰性をやめる、慣習を疑う」こんどこそ楽になる運用管理(1):

運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」。「超PayPay祭」における失敗と成功についてのセッション「超PayPay祭による高負荷にショッピングはどのように立ち向かったか」から、自社製プライベートクラウドで運用するWebサービスにおける高負荷対策のポイントを探る。

(2021年8月24日)

関連記事

Gartner Insights Pickup(196):

今後12〜18カ月にわたり、リモートワークとクラウド移行がインフラのトレンドをけん引し続ける見通しだ。

(2021年2月26日)
コンテナ実行基盤「Nomad」をKubernetesと比較検証(1):

コンテナオーケストレーションツールとして知られる「Kubernetes」とHashiCorpが提供する「Nomad」を比較検証する本連載。第1回はKubernetesとNomadの基本をおさらいします。

(2021年7月5日)
安心安全が第一でもクラウドネイティブを目指す理由:

テレビ番組の視聴度合いの指標となる「視聴率」を算出するシステムにクラウドを活用するビデオリサーチは現在、クラウドネイティブに向けた取り組みを進めているという。2021年5月11〜12日に開催された「AWS Summit Online 2021」でシニアフェローの豊島潤一氏が紹介した。

(2021年6月22日)
中堅中小企業がクラウド移行を加速させる3つの理由:

2021年5月11日〜12日に開催された「AWS Summit Online」でクラウド移行を進めた2社がクラウド移行の成果や経営陣からクラウド移行のゴーサインをもらうためのポイントを語った。

(2021年6月18日)
Ansible活用でIP払い出し作業時間をほぼ自動化:

2021年5月11〜12日に開催された「AWS Summit Online 2021」で、楽天グループ グローバルテクノロジー統括部 Vice Group Managerの藤井博貴氏が登壇。「楽天の大規模AWSネットワークインフラの運用方法」と題して、「AWS Transit Gateway」導入の効果や、Ansibleを用いた業務自動化の取り組みを紹介した。

(2021年6月16日)
カオスエンジニアリングに役立つ:

AWSはシステムに意図的に障害を発生させる障害注入試験に向いたフルマネージドサービス「AWS Fault Injection Simulator」の一般提供を開始した。CPUやメモリの使用量の急増といった破壊的なイベントを発生させてアプリケーションに負荷をかけ、システムの反応を監視して、改善できる。

(2021年3月18日)
リクルート5万人のテレワーク/VDI環境大解剖(2):

リクルートにおけるVDIの導入、運用、コロナ対応、そして今後のICT環境を紹介する連載。今回は、リクルートのVDI運用者が遭遇した2つの大きな問題と、その経験から得た学びなどについて。

(2021年3月23日)
Gartner Insights Pickup(186):

誰がクラウドオペレーションについての責任を持つのか――。1つの解はない。オペレーションアプローチには多くの選択肢があり、企業の個別状況によって最適な選択肢は異なる。

(2020年12月11日)
追加の設定作業が必要ない:

サーバのプロビジョニングや管理をすることなくコードを実行できる「AWS Lambda」サービスが利用しやすくなった。AWS Lambda拡張機能を使うことでモニタリングや可観測性、セキュリティ、ガバナンスのための運用ツールをAWS Lambdaと統合して利用できる。

(2020年11月2日)
草間一人氏が解説:

Cloud Foundryは、「Kubernetes-native」への移行という大きな変革の途上にある。具体的にはどのような取り組みが進行しているのか。背景と展望を含めて、PaaS研究会を主宰する草間一人氏が解説する。

(2020年6月1日)
150分間のサービス全停止も教訓に:

サービスで発生する障害をゼロにすることは難しい。では、障害をゼロに近づけるために誰が何をしていくか。freeeのSREが大規模障害で学んだことや、障害を減らすための取り組みを紹介した。

(2020年4月30日)
特集:「DevSecOps」実現を支えるSRE(2):

サイトの信頼性向上のためにSREの導入が進んでいる。ではSREを導入した企業では具体的にどのようなことに取り組んでいるのか。2020年1月に開催された「SRE NEXT 2020」でミクシィの清水勲氏が語った。

(2020年4月7日)
特集:AIOpsとは何か(3):

システムの安定した稼働を守ることが求められる「IT運用」の現場において「AIOps」による業務の自動化、効率化への関心が高まっている。商社のインフラサポートエンジニアとしての職務経験の中で、自ら機械学習を応用した遠隔サポートシステムを開発した園山淳也氏に「AIOps」の有効性や未来像を聞いた。

(2020年1月21日)
特集:AIOpsとは何か(2):

ITシステム/サービスがビジネスとイコールの関係になっている今、運用管理の在り方こそが「ビジネスの成果」を左右し得る状況になっている。こうした中、一部で注目を集めているAIOps(Artificial intelligence for IT Operations)は運用管理者の役割をどう変えていくのだろうか。

(2020年1月17日)
「専任エンジニアが2人以上欲しい」:

はてなのMackerelチームはKubernetesクラスタを自前で構築して運用していたが、撤退を選択したという。なぜ、Kubernetesの運用を諦めて撤退を選んだのか。はてなのMackerelチームでSREを務める今井隼人氏が語った。

(2019年11月8日)
Gartner Insights Pickup(127):

ITサービスの停止やパフォーマンスの低下は、ビジネス上の損失に直結する。では、サービスの吐き出す膨大なログデータを、サービス品質の向上や維持にどうつなげればいいのか。ここで検討すべきなのがAIOps(Artificial intelligence for IT Operations)だ。

(2019年10月4日)
運用コストを減らす3つのポイントとは:

本番環境にKubernetesを活用するfreeeでは、SREに運用管理業務が集中して疲弊してしまった。そこで、開発チームにサービスの運用管理業務を任せることで改善していったという。その方法とは?

(2019年7月19日)
特集:百花繚乱。令和のクラウド移行(4):

2013年から6年にわたって配信してきたオンラインゲーム「戦国炎舞 -KIZNA」では、それまで基盤としてきたプライベートクラウドで、一部ゾーンでのサービスが終了するのをきっかけにAWSに移行し、複数の課題を解決した。

(2019年7月16日)
@ITソフトウェア品質向上セミナー2018:

九州のISPサービスを担う、QTnet運用エンジニア木村氏は、ITインフラの監視に機械学習を活用し、これまで見えていなかった異常の検知や予測に取り組んでいる。「機械学習に関しては、ほぼど素人の取り組みだが、ソフトウェア開発に活用する際のヒントになれば」と謙遜しながら、その歩みを紹介した。

(2019年2月12日)
キャッチアップが大切:

日本マイクロソフトは2018年11月5〜7日に「Microsoft Tech Summit 2018」を開催。MicrosoftでCloud Developer Advocateを務める寺田佳央氏は、Kubernetesを本番環境で活用する際のポイントや、今後のJavaについて語った。

(2019年1月21日)
Gartner Insights Pickup(81):

ハイパーコンバージドインフラ(HCI)は、オンプレミスインフラの柔軟化、アジャイル化の推進に貢献する。I&Oリーダーが今、HCIを今後にわたり活用するための4つのポイントをまとめた。

(2018年10月19日)
SREの考え方で“運用”を変えるインフラ基盤 大解剖(3):

本連載では、「インフラの、特に基盤寄りの立場からSRE(Site Reliability Engineering)の活動を行い、Webサービスの価値を高めるためにはどうしたらいいか」について、リクルートの新たなインフラ基盤を例に見ていきます。今回は、インフラ基盤の技術的解説とともに、出始めている成果、今後の展望についてお話しします。

(2018年7月13日)
機械学習による「自律型データベース」:

日本オラクルは、「Oracle Autonomous Data Warehouse Cloud」の提供を国内で開始した。簡単な設定で、自動バックアップや暗号化、パッチの自動適用が可能になる他、高可用性に対応するデータベースシステムも構築できる。

(2018年4月23日)

日本ユニシスと日立が、システム障害に対するエンジニアの呼び出し要否の判断をAIで自動化する共同検証を開始。金融機関の基幹システムの本番運用環境で行い、機械学習したAIが判断するとともに、オペレーターの判断を継続的に学習しながら判断精度の向上を図る。

(2018年4月6日)
@IT運用管理セミナー〜運用管理は「なくなる仕事」?:

@ITは2017年12月12日に「@IT運用管理セミナー〜運用管理は『なくなる仕事』?」を開催した。本稿では、その内容をレポートする。

(2018年2月5日)

RSSについて

アイティメディアIDについて

メールマガジン登録

@ITのメールマガジンは、 もちろん、すべて無料です。ぜひメールマガジンをご購読ください。