運用者目線で見たクラウド技術のメリット、デメリット、今後求められる運用者像とは何か。オンラインイベント「Cloud Operator Days Tokyo 2021」で行われたパネルディスカッション「クラウド技術、自動化技術が基盤“運用者”にもたらした効果と功罪」、その内容の一部を紹介する。
新規サービス開発におけるクラウド活用や基幹システムのクラウド移行など、オンプレミスからクラウドへのシフトが盛んな時代になった。一方で、オンプレミスに残されたシステムやサービスの運用管理も行わなければならず、そのことがこれまで以上に運用管理を複雑にしている。本稿では、クラウドとオンプレミスが混在する現在のITシステムにおいて、これまでとはどのように運用管理が変化し、どうすれば自動化や省力化、コスト削減できるかについて、Microsoftのテクノロジーやサービスとともに解説する。
これからの時代、クラウドネイティブは正義だ――そう信じて移行を推進するとき、ぜひ周囲を見渡してほしい。環境の変化に戸惑い、生産性が低下している人たちがいるかもしれない。運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」のNTTコミュニケーションズの講演では、そんな戸惑う人たちに寄り添い、運用しやすい環境作りの工夫が紹介された。
Kubernetesのクラスタ数は10以上あり、その配下にある400以上のノードが支えるヤフーのIaaS基盤。その規模故にコンポーネントの管理に使うKubernetesとHelmのバージョンアップは2017年から行っていなかった。そして今、止まった時を動かすべく、新卒1、2年目のエンジニアが大規模環境のアップデートに挑む――運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」の同社による講演から、大規模Kubernetes環境運用のヒントを学ぼう。
社内でのクラウド活用が加速する他、DX案件の中でクラウドサービスを利用するケースが増えるNTT東日本。クラウド技術者の育成が急務となり、育成の場として選ばれたのはAWS上に構築されたハンズオン環境だった。しかし、従量課金モデルの場合、管理を少しでも怠れば、高額な料金が請求されるリスクがある――運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」の同社による講演では、AWS活用におけるコスト管理のポイントが明かされた。
運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」。NTT東日本のセッション「新入社員が9ヶ月でクラウド運用の自動化システムを作ってみた」から、AWS初心者が運用監視の定型業務を自動化する際の流れ、苦労するポイントを学ぶ。
運用管理者に光を当てるオンラインイベント「Cloud Operator Days Tokyo 2021」。「超PayPay祭」における失敗と成功についてのセッション「超PayPay祭による高負荷にショッピングはどのように立ち向かったか」から、自社製プライベートクラウドで運用するWebサービスにおける高負荷対策のポイントを探る。
今後12〜18カ月にわたり、リモートワークとクラウド移行がインフラのトレンドをけん引し続ける見通しだ。
コンテナオーケストレーションツールとして知られる「Kubernetes」とHashiCorpが提供する「Nomad」を比較検証する本連載。第1回はKubernetesとNomadの基本をおさらいします。
テレビ番組の視聴度合いの指標となる「視聴率」を算出するシステムにクラウドを活用するビデオリサーチは現在、クラウドネイティブに向けた取り組みを進めているという。2021年5月11〜12日に開催された「AWS Summit Online 2021」でシニアフェローの豊島潤一氏が紹介した。
2021年5月11日〜12日に開催された「AWS Summit Online」でクラウド移行を進めた2社がクラウド移行の成果や経営陣からクラウド移行のゴーサインをもらうためのポイントを語った。
2021年5月11〜12日に開催された「AWS Summit Online 2021」で、楽天グループ グローバルテクノロジー統括部 Vice Group Managerの藤井博貴氏が登壇。「楽天の大規模AWSネットワークインフラの運用方法」と題して、「AWS Transit Gateway」導入の効果や、Ansibleを用いた業務自動化の取り組みを紹介した。
AWSはシステムに意図的に障害を発生させる障害注入試験に向いたフルマネージドサービス「AWS Fault Injection Simulator」の一般提供を開始した。CPUやメモリの使用量の急増といった破壊的なイベントを発生させてアプリケーションに負荷をかけ、システムの反応を監視して、改善できる。
リクルートにおけるVDIの導入、運用、コロナ対応、そして今後のICT環境を紹介する連載。今回は、リクルートのVDI運用者が遭遇した2つの大きな問題と、その経験から得た学びなどについて。
誰がクラウドオペレーションについての責任を持つのか――。1つの解はない。オペレーションアプローチには多くの選択肢があり、企業の個別状況によって最適な選択肢は異なる。
サーバのプロビジョニングや管理をすることなくコードを実行できる「AWS Lambda」サービスが利用しやすくなった。AWS Lambda拡張機能を使うことでモニタリングや可観測性、セキュリティ、ガバナンスのための運用ツールをAWS Lambdaと統合して利用できる。
Cloud Foundryは、「Kubernetes-native」への移行という大きな変革の途上にある。具体的にはどのような取り組みが進行しているのか。背景と展望を含めて、PaaS研究会を主宰する草間一人氏が解説する。
サービスで発生する障害をゼロにすることは難しい。では、障害をゼロに近づけるために誰が何をしていくか。freeeのSREが大規模障害で学んだことや、障害を減らすための取り組みを紹介した。
サイトの信頼性向上のためにSREの導入が進んでいる。ではSREを導入した企業では具体的にどのようなことに取り組んでいるのか。2020年1月に開催された「SRE NEXT 2020」でミクシィの清水勲氏が語った。
システムの安定した稼働を守ることが求められる「IT運用」の現場において「AIOps」による業務の自動化、効率化への関心が高まっている。商社のインフラサポートエンジニアとしての職務経験の中で、自ら機械学習を応用した遠隔サポートシステムを開発した園山淳也氏に「AIOps」の有効性や未来像を聞いた。
ITシステム/サービスがビジネスとイコールの関係になっている今、運用管理の在り方こそが「ビジネスの成果」を左右し得る状況になっている。こうした中、一部で注目を集めているAIOps(Artificial intelligence for IT Operations)は運用管理者の役割をどう変えていくのだろうか。
はてなのMackerelチームはKubernetesクラスタを自前で構築して運用していたが、撤退を選択したという。なぜ、Kubernetesの運用を諦めて撤退を選んだのか。はてなのMackerelチームでSREを務める今井隼人氏が語った。
ITサービスの停止やパフォーマンスの低下は、ビジネス上の損失に直結する。では、サービスの吐き出す膨大なログデータを、サービス品質の向上や維持にどうつなげればいいのか。ここで検討すべきなのがAIOps(Artificial intelligence for IT Operations)だ。
本番環境にKubernetesを活用するfreeeでは、SREに運用管理業務が集中して疲弊してしまった。そこで、開発チームにサービスの運用管理業務を任せることで改善していったという。その方法とは?
2013年から6年にわたって配信してきたオンラインゲーム「戦国炎舞 -KIZNA」では、それまで基盤としてきたプライベートクラウドで、一部ゾーンでのサービスが終了するのをきっかけにAWSに移行し、複数の課題を解決した。
九州のISPサービスを担う、QTnet運用エンジニア木村氏は、ITインフラの監視に機械学習を活用し、これまで見えていなかった異常の検知や予測に取り組んでいる。「機械学習に関しては、ほぼど素人の取り組みだが、ソフトウェア開発に活用する際のヒントになれば」と謙遜しながら、その歩みを紹介した。
日本マイクロソフトは2018年11月5〜7日に「Microsoft Tech Summit 2018」を開催。MicrosoftでCloud Developer Advocateを務める寺田佳央氏は、Kubernetesを本番環境で活用する際のポイントや、今後のJavaについて語った。
ハイパーコンバージドインフラ(HCI)は、オンプレミスインフラの柔軟化、アジャイル化の推進に貢献する。I&Oリーダーが今、HCIを今後にわたり活用するための4つのポイントをまとめた。
本連載では、「インフラの、特に基盤寄りの立場からSRE(Site Reliability Engineering)の活動を行い、Webサービスの価値を高めるためにはどうしたらいいか」について、リクルートの新たなインフラ基盤を例に見ていきます。今回は、インフラ基盤の技術的解説とともに、出始めている成果、今後の展望についてお話しします。
日本オラクルは、「Oracle Autonomous Data Warehouse Cloud」の提供を国内で開始した。簡単な設定で、自動バックアップや暗号化、パッチの自動適用が可能になる他、高可用性に対応するデータベースシステムも構築できる。
日本ユニシスと日立が、システム障害に対するエンジニアの呼び出し要否の判断をAIで自動化する共同検証を開始。金融機関の基幹システムの本番運用環境で行い、機械学習したAIが判断するとともに、オペレーターの判断を継続的に学習しながら判断精度の向上を図る。
@ITは2017年12月12日に「@IT運用管理セミナー〜運用管理は『なくなる仕事』?」を開催した。本稿では、その内容をレポートする。