Microsoftは、ストリーミングビッグデータパイプラインの構築を支援する「Apache Kafka for HDInsight」の正式版を提供開始した。
Microsoftは2017年12月18日(米国時間)、「ストリーミングビッグデータパイプライン」の構築を支援するMicrosoft Azureサービス「Apache Kafka for HDInsight」の正式版を提供開始したと発表した。
Apache Kafka for HDInsightは、2016年にプレビュー版がリリースされた。これまでにトヨタ自動車、Adobe Systems、Bing Ads、General Electricなどが本番環境で利用し、コネクテッドカーや詐欺検知、クリックストリーム分析、ログ解析などのために毎秒100万件以上のイベント処理を行っている。
Apache Kafka(Kafka)はオープンソースの分散ストリーミングプラットフォーム。新サービスの基盤である「Microsoft Azure HDInsight」はKafkaの他、「Apache Hadoop」「Apache Spark」「Apache Hive」「LLAP(Live Long And Process)」「Apache Storm」「R」といったオープンソースフレームワークに対応したフルマネージド分析サービスだ。
Kafkaは大規模ストリーミングイベントを、スケーラビリティ、低レイテンシ、低コストで処理する技術として幅広く使われている。Microsoftは、「Kafkaを利用したいと考える企業は多いが、ストリーミングパイプラインの導入、管理、メンテナンスは難しい。しかも、Kafkaはオープンソースでサポートが薄いので、パイプラインで高レベルのアップタイムを確保するには、社内の人材がこうした技術に精通している必要がある」と説明する。
Microsoftはこうした認識から、HDInsightを基盤としたフルマネージドKafkaサービスとして、2016年にApache Kafka for HDInsightを発表した。HDInsightはマネージドプラットフォームであり、オープンソースワークロードで99.9%のSLA(サービス品質保証)を提供する。
「このサービスでは、企業はKafkaクラスタの管理に悩まずに済む。HDInsightが、Kafkaの大規模な運用で、企業が直面する問題を解決するからだ」(Microsoft)
さらにMicrosoftは、プレビュー段階からApache Kafka for HDInsightを使用してきた顧客からのフィードバックを踏まえ、新サービスの重要機能を開発、実装したという。
例えば、Apache Kafka for HDInsightは、「Azure Managed Disks」とネイティブに統合されている。これにより、トヨタやBing Adsが処理するような大規模ワークロードのスケールアウトが可能になり、コストも大幅に抑えられたという。また、Azure環境でKafkaに「ラックアウェアネス」を実装するツールを導入したことで、HDInsight上でのKafkaの可用性を最大限に高めることが可能だ。
Microsoftは、こうした機能を持つApache Kafka for HDInsightが正式リリースとなったことで、Azureプラットフォームでエンドツーエンドのストリーミングパイプラインを実現できるようになったとしている。
「企業は、フルマネージドのHDInsightプラットフォームでKafkaやApache Spark、Apache Stormを使用する高スケーラブル、フォールトトレラント(障害許容)で安全なリアルタイムアーキテクチャを、ワンクリックでデプロイできる」(Microsoft)
Copyright © ITmedia, Inc. All Rights Reserved.