ホームページ >バックエンド開発 >Python チュートリアル >Journal Transcriber: 口述筆記して日記を書きます
読者の皆さん、今日は私が書いた日記の原稿についてお話します。 ?
私が解決しようとしている問題は、自分の考えを保存したいということです。
自分の書いたものを読むのに問題はありませんが、待つのは楽しくありません。口述筆記はできますが、自分の声を保存したり聞いたりしたくありません。
そのような状況に遭遇するたびに、私はエンジニアリングモードに入り、勤務時間の数時間以内に取り組めるものであれば、それに取り組みます。
まず、使いやすい音声テキスト変換ライブラリを調べたところ、Vosk を見つけました。モデルの膨大なライブラリがあります。コーディング中にアプリを使用したいため、2 つの小さいものを選択しました。ある程度まともな結果が得られます。
その後、複数の AI モデルの魔法を利用して、Python で解決策を見つけました。マイクとシステム サウンドを Vosk モデルにストリーミングし、現在の日付のファイルにタイムスタンプとともに書き込まれる文字起こしを提供します。
目的は果たしますが、日常的に使うには不便です。私のモットーの 1 つは、「簡単ですぐに実行できない場合は、使用しない」です。そこで、スクリプトを Python モジュールにパックし、*.desktop ファイルを作成して、私の場合は通常の Linux アプリケーションである Pop!_OS として登録しました。
キーボード ショートカットを追加するだけで、それが機能する奇跡をご覧ください!
通知送信を使用した通知は、アプリの現在の状態を知らせるためにあります。
私がイライラすることの 1 つは、アプリケーションがコンソールで実行されるときです。ワークスペースが乱雑になるためです。これを回避するには、端末に依存せずにアプリを起動および停止する簡単な方法が必要でした。私の解決策は、ロック ファイル システムを実装することでした。
アプリが起動すると、プロセス ID (PID) を含むロック ファイルが作成されます。ロックがすでに存在する場合、スクリプトはそれを使用して KeyboardInterrupt シグナルを送信し、実行中のインスタンスを停止して終了します。このようにして、最初の呼び出しでアプリが起動して文字起こしが開始され、2 番目の呼び出しでアプリが停止します。
この記事が、ユニークで独創的で洗練された方法で自分の問題を解決したいという誰かの願いを呼び起こすことを願っています。
他の同様の記事もお気軽にチェックしてください:
スクリーンショットからのテキスト抽出の自動化
コードもお気軽にチェックしてください:
Github 上
良い一日をお過ごしください?
以上がJournal Transcriber: 口述筆記して日記を書きますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。