Golang を使用して Web アプリケーションの音声処理を実装する方法-Golang-php.cn

ホームページ

バックエンド開発

Golang

Golang を使用して Web アプリケーションの音声処理を実装する方法

王林

Jun 25, 2023 am 09:50 AM

golangウェブアプリケーションオーディオ処理

インターネットの発展に伴い、音声処理はますます重要なタスクになっています。音声処理の実装は、Web アプリケーションに必要なスキルです。高速かつ効率的なプログラミング言語である Golang は、Web アプリケーションのオーディオ処理の実装にも使用できます。

この記事では、Golang を使用して、音声ファイルのアップロード、音声形式の変換、音声特徴の抽出など、Web アプリケーションの音声処理を実装する方法を紹介します。

1. 音声ファイルのアップロード

音声処理を実装する前に、まず音声ファイルをアップロードする必要があります。サードパーティパッケージ gin を Golang で使用すると、Web アプリケーションの迅速な開発を実現できます。

ファイルアップロードを実装するには、次に示すように、HTML コードに input タグを追加してファイルアップロードページを実装する必要があります。

<html>
  <head>
    <title>音频文件上传</title>
  </head>
  <body>
    <form enctype="multipart/form-data" action="/upload" method="post">
      <input type="file" name="file" />
      <input type="submit" value="上传" />
    </form>
  </body>
</html>

その後、gin を使用して次のことができます。 Golang でファイルアップロードを実装する処理関数は次のとおりです:

func uploadFile(c *gin.Context) {
  file, err := c.FormFile("file")
  if err != nil {
    log.Println(err)
    c.String(http.StatusBadRequest, "Bad request")
    return
  }

  // 保存上传的文件
  err = c.SaveUploadedFile(file, file.Filename)
  if err != nil {
    log.Println(err)
    c.String(http.StatusInternalServerError, "Internal server error")
    return
  }

  c.String(http.StatusOK, fmt.Sprintf("'%s' uploaded!", file.Filename))
}

2. 音声フォーマット変換

音声処理を実装する前に、アップロードされた音声ファイルのフォーマットを変換する必要があります。後続の処理関数で使用できます。 Golang のサードパーティパッケージ goav を使用して、オーディオ形式の変換を実装できます。

まず、goav 用の FFmpeg をインストールする必要があります。Ubuntu システムでは、次のコマンドを使用してインストールできます:

sudo apt install ffmpeg

その後、goav を使用して Golang のオーディオ形式を変換できます。 MP3 形式を WAV に変換する場合形式は次のとおりです:

func convertAudioFormat(inputFile string, outputFile string) error {
  ctx := avutil.AvAllocContext()
  defer avutil.AvFree(ctx)

  // 打开输入音频文件
  if avformat.AvformatOpenInput(&ctx, inputFile, nil, nil) != 0 {
    return errors.New("无法打开输入音频文件")
  }
  defer avformat.AvformatCloseInput(ctx)

  // 检索音频流信息
  if avformat.AvformatFindStreamInfo(ctx, nil) < 0 {
    return errors.New("无法获取音频流信息")
  }

  // 寻找音频流索引
  audioIndex := -1
  for i := 0; i < int(ctx.NbStreams()); i++ {
    if ctx.Streams()[i].CodecParameters().CodecType() == avcodec.AVMEDIA_TYPE_AUDIO {
      audioIndex = i
      break
    }
  }
  if audioIndex < 0 {
    return errors.New("音频流不存在")
  }

  // 打开音频解码器
  codecParams := ctx.Streams()[audioIndex].CodecParameters()
  codec := avcodec.AvcodecFindDecoder(codecParams.CodecId())
  if codec == nil {
    return errors.New("无法打开音频解码器")
  }
  if codec.AvcodecOpen(codecParams) != 0 {
    return errors.New("无法打开音频解码器")
  }
  defer codec.AvcodecClose()

  // 打开输出音频文件
  outctx := avformat.AvformatAllocContext()
  defer avformat.AvformatFreeContext(outctx)
  if avformat.AvformatAllocOutputContext2(&outctx, nil, "wav", outputFile) != 0 {
    return errors.New("无法打开输出音频文件")
  }
  defer func() {
    avio.AvioClose(outctx.Pb())
    avformat.AvformatFreeContext(outctx)
  }()

  // 写入音频流头部信息
  stream := avformat.AvformatNewStream(outctx, nil)
  defer avutil.AvFree(stream.CodecParameters())
  if avcodec.AvCodecParametersCopy(stream.CodecParameters(), codecParams) != 0 {
    return errors.New("无法复制音频参数")
  }

  // 写入文件头部信息
  if outctx.Format().Flags()&avformat.AVFMT_NOFILE == 0 {
    if avio.AvioOpen(&outctx.Pb(), outputFile, avutil.AVIO_FLAG_WRITE) < 0 {
      return errors.New("无法打开输出文件")
    }
  }
  if avformat.AvformatWriteHeader(outctx, nil) < 0 {
    return errors.New("无法写入文件头部信息")
  }

  // 转换音频格式并写入文件
  packet := avcodec.AvPacketAlloc()
  defer avcodec.AvPacketUnref(packet)
  for {
    frame, err := codec.AvcodecReceiveFrame(packet)
    if err != nil {
      if err == avutil.ErrEOF || err == avutil.ErrEAGAIN {
        break
      } else {
        return errors.New("无法接收音频帧")
      }
    }
    if frame.Pts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 {
      frame.SetPts(avutil.AvRescaleQ(frame.Pts(), codec.Avctx().TimeBase(), stream.TimeBase()))
    }
    if frame.PktDts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 {
      frame.SetPktDts(avutil.AvRescaleQ(frame.PktDts(), codec.Avctx().TimeBase(), stream.TimeBase()))
    }
    if frame.PktPts() != avutil.AvNoPts && codec.Avctx().TimeBase().Den() > 0 {
      frame.SetPktPts(avutil.AvRescaleQ(frame.PktPts(), codec.Avctx().TimeBase(), stream.TimeBase()))
    }
    if avcodec.AvCodecSendFrame(codec, frame) != 0 {
      return errors.New("无法发送音频帧")
    }
    for {
      err := avcodec.AvCodecReceivePacket(codec, packet)
      if err != nil {
        if err == avutil.ErrEOF || err == avutil.ErrEAGAIN {
          break
        } else {
          return errors.New("无法接收音频数据包")
        }
      }
      packet.SetStreamIndex(stream.Index())
      if avformat.AvInterleavedWriteFrame(outctx, packet) < 0 {
        return errors.New("无法写入音频数据包")
      }
      avcodec.AvPacketUnref(packet)
    }
    avutil.AvFrameFree(&frame)
  }

  // 写入文件尾部信息
  if avformat.AvWriteTrailer(outctx) < 0 {
    return errors.New("无法写入文件尾部信息")
  }

  return nil
}

3. 音声特徴抽出

最後に、音声ファイルを処理するためにいくつかの音声特徴抽出アルゴリズムを実装する必要があります。

たとえば、go-dsp パッケージを使用して短時間フーリエ変換 (STFT) を実装し、オーディオファイルをスペクトログラムに変換できます。以下に示すように:

func stft(signal []float64, windowSize int, overlap float64) [][]complex128 {
  hopSize := int(float64(windowSize) * (1.0 - overlap))
  fftSize := windowSize / 2

  stftMatrix := make([][]complex128, 0)

  for i := 0; i+windowSize < len(signal); i += hopSize {
    segment := signal[i : i+windowSize]
    window := dsp.NewWindow(windowSize, dsp.Hamming)

    fftIn := make([]complex128, windowSize)
    for j := range segment {
      fftIn[j] = complex(segment[j], 0)
    }
    window.Apply(fftIn)
    fftOut := make([]complex128, fftSize)
    for j := range fftOut {
      fftOut[j] = 0
    }
    fft.FFT(fftOut, fftIn)

    stftRow := make([]complex128, fftSize)
    for j := range stftRow {
      stftRow[j] = fftOut[j]
    }
    stftMatrix = append(stftMatrix, stftRow)
  }

  return stftMatrix
}

さらに、go-dsp パッケージを使用して、MFCC (メルケプストラム係数) や ZCR (ゼロクロッシングレート) などの他のオーディオ特徴抽出アルゴリズムを実装することもできます。

要約すると、この記事では、Golang を使用して、音声ファイルのアップロード、音声形式の変換、音声特徴抽出などの Web アプリケーションの音声処理を実装する方法を紹介します。これらのスキルは、Web アプリケーションを開発する開発者がオーディオデータをより適切に処理し、ユーザーに優れたユーザーエクスペリエンスを提供するのに役立ちます。

以上がGolang を使用して Web アプリケーションの音声処理を実装する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

Golang vs. Python：長所と短所Apr 21, 2025 am 12:17 AM

GolangisidealforBuildingsCalables Systemsduetoitsefficiency andConcurrency、Whilepythonexcelsinquickscriptinganddataanalysisduetoitssimplicityand vastecosystem.golang'ssignencouragesclean、readisinediteNeditinesinedinediseNabletinedinedinedisedisedioncourase

Golang and C：Concurrency vs. Raw SpeedApr 21, 2025 am 12:16 AM

Golangは並行性がCよりも優れていますが、Cは生の速度ではGolangよりも優れています。 1）Golangは、GoroutineとChannelを通じて効率的な並行性を達成します。これは、多数の同時タスクの処理に適しています。 2）Cコンパイラの最適化と標準ライブラリを介して、極端な最適化を必要とするアプリケーションに適したハードウェアに近い高性能を提供します。

なぜゴランを使うのですか？説明された利点と利点が説明されていますApr 21, 2025 am 12:15 AM

Golangを選択する理由には、1）高い並行性パフォーマンス、2）静的タイプシステム、3）ガベージ収集メカニズム、4）豊富な標準ライブラリとエコシステムは、効率的で信頼できるソフトウェアを開発するための理想的な選択肢となります。

Golang vs. C：パフォーマンスと速度の比較Apr 21, 2025 am 12:13 AM

Golangは迅速な発展と同時シナリオに適しており、Cは極端なパフォーマンスと低レベルの制御が必要なシナリオに適しています。 1）Golangは、ごみ収集と並行機関のメカニズムを通じてパフォーマンスを向上させ、高配列Webサービス開発に適しています。 2）Cは、手動のメモリ管理とコンパイラの最適化を通じて究極のパフォーマンスを実現し、埋め込みシステム開発に適しています。

GolangはCよりも速いですか？制限の調査Apr 20, 2025 am 12:19 AM

Golangは、コンピレーション時間と同時処理においてより良いパフォーマンスを発揮しますが、Cはランニング速度とメモリ管理においてより多くの利点があります。 1.Golangの編集速度は速く、迅速な発展に適しています。 2.Cは速く実行され、パフォーマンスクリティカルなアプリケーションに適しています。 3. Golangは、同時処理においてシンプルで効率的で、同時プログラミングに適しています。 4.Cマニュアルメモリ管理により、パフォーマンスが高くなりますが、開発の複雑さが向上します。

Golang：WebサービスからシステムプログラミングまでApr 20, 2025 am 12:18 AM

WebサービスとシステムプログラミングへのGolangのアプリケーションは、主にそのシンプルさ、効率性、並行性に反映されています。 1）Webサービスでは、Golangは、強力なHTTPライブラリと同時処理機能を介して、高性能WebアプリケーションとAPIの作成をサポートしています。 2）システムプログラミングでは、Golangはハードウェアに近い機能とC言語との互換性を使用して、オペレーティングシステムの開発と組み込みシステムに適しています。

Golang vs. C：ベンチマークと現実世界のパフォーマンスApr 20, 2025 am 12:18 AM

GolangとCには、パフォーマンスの比較に独自の利点と欠点があります。1。ゴーランは、高い並行性と迅速な発展に適していますが、ごみ収集はパフォーマンスに影響を与える可能性があります。 2.Cは、パフォーマンスとハードウェア制御を高くしますが、開発の複雑さが高くなります。選択を行うときは、プロジェクトの要件とチームのスキルを包括的な方法で考慮する必要があります。

Golang vs. Python：比較分析Apr 20, 2025 am 12:17 AM

Golangは、高性能および同時プログラミングシナリオに適していますが、Pythonは迅速な開発とデータ処理に適しています。 1.Golangは、シンプルさと効率性を強調し、バックエンドサービスとマイクロサービスに適しています。 2。Pythonは、データサイエンスと機械学習に適した簡潔な構文とリッチライブラリで知られています。

See all articles

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

SublimeText3 中国語版

中国語版、とても使いやすい

SublimeText3 英語版

推奨: Win バージョン、コードプロンプトをサポート!

SublimeText3 Linux 新バージョン

SublimeText3 Linux 最新バージョン

WebStorm Mac版

便利なJavaScript開発ツール

mPDF

mPDF は、UTF-8 でエンコードされた HTML から PDF ファイルを生成できる PHP ライブラリです。オリジナルの作者である Ian Back は、Web サイトから「オンザフライ」で PDF ファイルを出力し、さまざまな言語を処理するために mPDF を作成しました。 HTML2FPDF などのオリジナルのスクリプトよりも遅く、Unicode フォントを使用すると生成されるファイルが大きくなりますが、CSS スタイルなどをサポートし、多くの機能強化が施されています。 RTL (アラビア語とヘブライ語) や CJK (中国語、日本語、韓国語) を含むほぼすべての言語をサポートします。ネストされたブロックレベル要素 (P、DIV など) をサポートします。