[GCP] Speech API
Cloud GCP
Published: 2020-12-01

Cloud Speech API

音声をテキストに変換してくれるCloud Speech API。議事録などの音声データを文字起こしをやりたくて、導入を検討している企業も多いのではないでしょうか。この記事では、Cloud Speech APIの使い方やメリット・デメリットを紹介します。音声データを解析したい方は、ぜひ参考にしてください。

Cloud Speech APIの使い方

Cloud Speech APIが有効になっているか、確かめます。

Cloud Speech APIを有効にしたら、新しいプロジェクトを作成します。

APIキーを発行するために、認証情報を登録します。

認証情報を取得したら、Cloud Speech APIの課金を有効にします。

あとは、Google Cloud Storageにバケットを作成し、解析する音声をアップロードするだけです。Google Cloud Shellを使い、音声データのスクリプトを作成したら、変換を実行してください。

Cloud Speech APIのメリット

音声変換の質が高い

Cloud Speech APIは、GoogleのAI技術を利用しているだけあって、音声変換の質が高いです。議事録やコールセンターなどの音声データを、ほぼ完璧な形で文字起こしできます。システム側の処理精度が高く、クライアント側でノイズを除去する必要もありません。

費用対効果が高い

利用した分だけ費用が発生する従量課金制のため、費用対効果が高いです。60分までの音声データなら無料で利用できます。月に100万分までの音声変換が可能です。60分以上は、15秒あたり0.006ドルかかります。

初心者でも使いやすい

サインプルコードが多数公開されており、利用方法に関するドキュメントも多いです。コミュニティも活発に働いているため、トラブルが発生しても十分対応できるでしょう。

サポートしている言語の数が多い

Cloud Speech APIは、120か国語をサポートしています。4言語のみですが、自動で言語を判別することも可能です。

システム間で連携できる

音声変換したデータは、Google Cloud Storageなどのシステムと連携できます。その他の関連システムとの連携も可能なため、いろいろな使い道が見つかるでしょう。拡張モデルも複数用意されています。

Cloud Speech APIのデメリット

Cloud Speech APIで変換した音声は、句読点や改行がない文章になります。人によっては読みづらいと感じるかもしれません。また、英語のみ読者の区別を行えます。

まとめ

Cloud Speech APIは、音声データを高精度に変換できるツールです。サポートしている言語も多く、グローバルな市場でも問題なく利用できます。サンプルコードも数多く公開されており、利用方法を記したドキュメントも豊富です。初めて利用する方も、積極的に活用しましょう。

関連する記事