初学者向け「Amazon Transcribe」(AI文字起こしサービス)をPythonで利用するには:AWSチートシート
AWS活用における便利な小技を簡潔に紹介する連載「AWSチートシート」。今回は、AWSのAI文字起こしサービス「Amazon Transcribe」をPythonで利用する方法を紹介する。
「Amazon Web Services」(AWS)活用における便利な小技を簡潔に紹介する連載「AWSチートシート」。今回は、AWSのAI文字起こしサービス「Amazon Transcribe」をPythonで利用します。以下、Transcribeに用意されているメソッドを概観し、幾つかの使い方を紹介します。
「Amazon Transcribe」とは
AWSには、事前トレーニング済みのAI(人工知能)を手軽に利用できる「AIサービス」が多数用意されており、その内容はコンピュータビジョンから言語、レコメンデーション、予測と多岐にわたります。
今回紹介するTranscribeは、オーディオファイルまたは動画ファイルから、音声を文字起こしするAIクラウドサービスです。サポート言語はバッチ処理とリアルタイム処理で異なり、2021年7月の本稿執筆時点で、それぞれ31言語と12言語が提供されています。この中には、アメリカ英語やイギリス英語など、細分化されている言語もあります。なお、日本語はどちらの処理にも対応しています。
利用可能な入力ファイル形式には、バッチ処理ではFLAC、MP3、MP4、Ogg、WebM、AMR、WAVがあります(音声データは長さが4時間未満、または容量が2GB未満である必要があります)。一方、リアルタイム処理では、ストリームはPCM16ビット符号付きリトルエンディアン、Oggコンテナに格納されたOPUS、FLACのいずれかでエンコードされている必要があります。
ちなみに、Transcribeには姉妹サービスとして、医療分野での文字起こしに特化した「Amazon Transcribe Medical」が別途提供されています。ただし、現在こちらはアメリカ英語のみ対応です。
AWSの「AIサービス」はコンソール画面から利用できますが、開発を念頭に置かなくても、慣れてくれば今回のようにAPIを利用する方がより便利で効率的に感じてくるでしょう。本稿がそのように利用するきっかけになれば幸いです。
利用料金
Transcribeは従量課金制で、文字起こしを行った秒数に応じて毎月課金されます。その際の単価は、累積利用時間で区分されるTierごとに、段階的な割引が適用されるスタイルになっています。東京リージョンでの料金を分単価(秒単価×60)で見てみると、最初の25万分(T1)は0.0240ドル、続く75万分(T2)は0.0150ドル、その後(T3)は0.0108ドルとなっています。なお、1リクエスト当たりの最小料金は15秒分に設定されています(他にもTranscribe Medical、「自動コンテンツリダクション」「カスタム言語モデル」に関する料金が別途設定されています。詳細は公式サイトをご確認ください)。
ちなみに、Transcribeは無料利用枠の対象になっており、最初のリクエストから12カ月間は、1カ月当たり60分まで無料で利用できます(ただし、無料利用枠を超えた場合には従量課金が適用されます)。
必要条件
本稿では、読者の環境で下記要件が満たされていることを仮定しています。
- AWSアカウントを有しており、「AWS Identity and Access Management」(IAM)ユーザーに必要な権限(今回ならTranscribeと「Amazon S3」関連)が付与されていること。ホームディレクトリにAPIを利用するための認証情報が保存されていること
- AWSが提供するPython用のSDK「Boto3」がインストールされていること
なおこれは必須ではありませんが、以下のサンプルコードは「Jupyter Notebook」での実行を想定しています。
メソッド一覧
Transcribeには以下のメソッドが用意されています(以下ではリアルタイム処理、ならびにTranscribe Medicalに関するメソッドは割愛しています)。
Copyright © ITmedia, Inc. All Rights Reserved.
関連記事
- クラウド「AI」API入門:AWS/Cognitive Services/Google Cloud/IBM Watsonの比較
「AWS AIサービス」「Azure Cognitive Services」「Google Cloud AIビルディングブロック」「IBM Watson API」という主要AIサービスの一覧表を示し、各サービスを1行程度で説明する。自分でAI/機械学習モデルを作る前に、既存のAIサービスがないか(カスタマイズできないか)を、これで確認しよう。 - 「スマートスピーカー」の中にある「人工知能」は何をしているのか、作り方から理解する
世界の名だたるプラットフォーマーが開発に力を入れる「スマートスピーカー」。どのような手順でどんな処理が行われているのかは完全にブラックボックスだ。「スマートスピーカーを理解するには、自作するのが早道」と提唱する開発者に話を聞いた。 - 「Amazon Connect」の、コールセンターを変える「破壊力」
Amazon Web Services(AWS)の「Amazon Connect」は、コールセンターをクラウド上にソフトウェアで構築できるサービスだ。最大の特徴はコールセンターの構築・運用コストの大幅な削減。だが、従来型のコールセンターシステムを、ビジネスの変化に柔軟に対応できるツールに変えたいという用途にも適している。AWSとセールスフォースの説明に基づき、このサービスをあらためて紹介する。