これは AssemblyAI チャレンジ : Sophisticated Speech-to-Text への提出物です。
ラップトップ、携帯電話、タブレットなどのさまざまなデバイスで使用できるように、レスポンシブ デザインで使いやすい Web ページを作成しました。アプリは 100% 機能し、ファイル (オーディオ) をアップロードするための入力が含まれています。文字起こしをしたい場合は、文字起こしを開始するボタンをクリックします。このボタンをクリックすると、文字起こしが自動的に開始され、文字起こしされたテキストがすぐ下に表示されます。
Web アプリケーションは、誰もがどのデバイスからでも、どこからでもアクセスして使用できるようにデプロイされています。要約すると、音声処理に Universal -2 モデルを使用して音声を文字起こしするための、すぐに使用できる Web アプリケーションが完成しました。
コードは MIT の無料ライセンスの下にあり、ここから GitHub リポジトリにアクセスできます。
Web アプリは Render にもデプロイされています。つまり、使いやすさとアクセシビリティがあり、ここからアプリケーションにアクセスして使用できます。
アプリは 100% 機能しています。以下のスクリーンショットで確認できます。
また、インターフェイスはテクノロジーの使用経験があるかどうかにかかわらず、誰にとっても直感的です。この画像でそれを確認できます。
アプリケーションのデザインは応答性が高く、どのデバイスからでもアクセスして使用できます。つまり、優れたユーザー エクスペリエンスとアクセシビリティを備えています。これらのスクリーンショットで確認できます:
テクノロジースタックでは、使いやすさとユーザーエクスペリエンスを備えたWebフロントエンドを構築するために従来のHTML、CSS、JSを使用しました。バックエンドでは、ルートの定義とロジックの実装にFlaskを使用しました。 Universal-2、AssemblyAI のモデル が音声を転写します。簡単に言えば、Flask が音声を受信し、アセンブリに送信します。 AI API (接続は API キーを通じて確立されます)、API は音声を処理し、200 ステータス応答を送信します。
Flask はオーディオをアップロード フォルダーに保存するため、それが Render にデプロイされると、ホストはディレクトリ上のファイルの保存とアクセスにアクセスできなくなり、エラーが発生してページが翻訳されなくなる可能性があります。この問題は、アップロード ディレクトリではなく、オーディオを保存するためにクラウド ストレージを使用し、フラスコがクラウドからアクセスするために必要です。
以上がAI文字起こしアプリの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。