recherche
Maisondéveloppement back-endGolangImplémentation d'un Lambda avec GitLab CI/CD et Terraform pour l'intégration SFTP, S Databricks in Go

Implementando uma Lambda com GitLab CI/CD e Terraform para Integração SFTP, S Databricks em Go

Réduire les coûts grâce à l'automatisation des processus dans Databricks

J'ai eu un besoin chez un client pour réduire le coût des processus qui s'exécutaient sur Databricks. L'une des fonctionnalités dont Databricks était responsable était de collecter des fichiers de divers SFTP, de les décompresser et de les placer dans le Data Lake.

L'automatisation des flux de travail de données est un élément crucial de l'ingénierie des données moderne. Dans cet article, nous allons explorer comment créer une fonction AWS Lambda à l'aide de GitLab CI/CD et Terraform qui permet à une application Go de se connecter à un serveur SFTP, de collecter des fichiers, de les stocker dans Amazon S3 et enfin de déclencher une tâche sur Databricks. Ce processus de bout en bout est essentiel pour les systèmes qui reposent sur une intégration et une automatisation efficaces des données.

Ce dont vous aurez besoin pour cet article

  • Compte GitLab avec un référentiel pour le projet.
  • Compte AWS avec autorisations pour créer des ressources Lambda, S3 et IAM.
  • Compte Databricks avec autorisations pour créer et exécuter des tâches.
  • Connaissance de base de Go, Terraform et GitLab CI/CD.

Étape 1 : Préparation de l'application Go

Commencez par créer une application Go qui se connectera au serveur SFTP pour collecter les fichiers. Utilisez des packages tels que github.com/pkg/sftp pour établir la connexion SFTP et github.com/aws/aws-sdk-go pour interagir avec le service AWS S3.

package main

import (
 "fmt"
 "log"
 "os"
 "path/filepath"

 "github.com/pkg/sftp"
 "golang.org/x/crypto/ssh"
 "github.com/aws/aws-sdk-go/aws"
 "github.com/aws/aws-sdk-go/aws/session"
 "github.com/aws/aws-sdk-go/service/s3/s3manager"
)

func main() {
 // Configuração do cliente SFTP
 user := "seu_usuario_sftp"
 pass := "sua_senha_sftp"
 host := "endereco_sftp:22"
 config := &ssh.ClientConfig{
  User: user,
  Auth: []ssh.AuthMethod{
   ssh.Password(pass),
  },
  HostKeyCallback: ssh.InsecureIgnoreHostKey(),
 }

 // Conectar ao servidor SFTP
 conn, err := ssh.Dial("tcp", host, config)
 if err != nil {
  log.Fatal(err)
 }
 client, err := sftp.NewClient(conn)
 if err != nil {
  log.Fatal(err)
 }
 defer client.Close()

 // Baixar arquivos do SFTP
 remoteFilePath := "/path/to/remote/file"
 localDir := "/path/to/local/dir"
 localFilePath := filepath.Join(localDir, filepath.Base(remoteFilePath))
 dstFile, err := os.Create(localFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer dstFile.Close()

 srcFile, err := client.Open(remoteFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer srcFile.Close()

 if _, err := srcFile.WriteTo(dstFile); err != nil {
  log.Fatal(err)
 }

 fmt.Println("Arquivo baixado com sucesso:", localFilePath)

 // Configuração do cliente S3
 sess := session.Must(session.NewSession(&aws.Config{
  Region: aws.String("us-west-2"),
 }))
 uploader := s3manager.NewUploader(sess)

 // Carregar arquivo para o S3
 file, err := os.Open(localFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer file.Close()

 _, err = uploader.Upload(&s3manager.UploadInput{
  Bucket: aws.String("seu-bucket-s3"),
  Key:    aws.String(filepath.Base(localFilePath)),
  Body:   file,
 })
 if err != nil {
  log.Fatal("Falha ao carregar arquivo para o S3:", err)
 }

 fmt.Println("Arquivo carregado com sucesso no S3")
}

Étape 2 : configuration de Terraform

Terraform sera utilisé pour provisionner la fonction Lambda et les ressources requises sur AWS. Créez un fichier main.tf avec la configuration requise pour créer la fonction Lambda, les stratégies IAM et les compartiments S3.

provider "aws" {
  region = "us-east-1"
}

resource "aws_iam_role" "lambda_execution_role" {
  name = "lambda_execution_role"

  assume_role_policy = jsonencode({
    Version = "2012-10-17",
    Statement = [
      {
        Action = "sts:AssumeRole",
        Effect = "Allow",
        Principal = {
          Service = "lambda.amazonaws.com"
        },
      },
    ]
  })
}

resource "aws_iam_policy" "lambda_policy" {
  name        = "lambda_policy"
  description = "A policy that allows a lambda function to access S3 and SFTP resources"

  policy = jsonencode({
    Version = "2012-10-17",
    Statement = [
      {
        Action = [
          "s3:ListBucket",
          "s3:GetObject",
          "s3:PutObject",
        ],
        Effect = "Allow",
        Resource = [
          "arn:aws:s3:::seu-bucket-s3",
          "arn:aws:s3:::seu-bucket-s3/*",
        ],
      },
    ]
  })
}

resource "aws_iam_role_policy_attachment" "lambda_policy_attachment" {
  role       = aws_iam_role.lambda_execution_role.name
  policy_arn = aws_iam_policy.lambda_policy.arn
}

resource "aws_lambda_function" "sftp_lambda" {
  function_name = "sftp_lambda_function"

  s3_bucket = "seu-bucket-s3-com-codigo-lambda"
  s3_key    = "sftp-lambda.zip"

  handler = "main"
  runtime = "go1.x"

  role = aws_iam_role.lambda_execution_role.arn

  environment {
    variables = {
      SFTP_HOST     = "endereco_sftp",
      SFTP_USER     = "seu_usuario_sftp",
      SFTP_PASSWORD = "sua_senha_sftp",
      S3_BUCKET     = "seu-bucket-s3",
    }
  }
}

resource "aws_s3_bucket" "s3_bucket" {
  bucket = "seu-bucket-s3"
  acl    = "private"
}

Étape 3 : Configuration de GitLab CI/CD

Dans GitLab, définissez le pipeline CI/CD dans le fichier .gitlab-ci.yml. Ce pipeline doit inclure des étapes pour tester l'application Go, exécuter Terraform pour provisionner l'infrastructure et une étape de nettoyage si nécessaire.

stages:
  - test
  - build
  - deploy

variables:
  S3_BUCKET: "seu-bucket-s3"
  AWS_DEFAULT_REGION: "us-east-1"
  TF_VERSION: "1.0.0"

before_script:
  - 'which ssh-agent || ( apt-get update -y && apt-get install openssh-client -y )'
  - eval $(ssh-agent -s)
  - echo "$PRIVATE_KEY" | tr -d '\r' | ssh-add -
  - mkdir -p ~/.ssh
  - chmod 700 ~/.ssh
  - ssh-keyscan -H 'endereco_sftp' >> ~/.ssh/known_hosts

test:
  stage: test
  image: golang:1.18
  script:
    - go test -v ./...

build:
  stage: build
  image: golang:1.18
  script:
    - go build -o myapp
    - zip -r sftp-lambda.zip myapp
  artifacts:
    paths:
      - sftp-lambda.zip
  only:
    - master

deploy:
  stage: deploy
  image: hashicorp/terraform:$TF_VERSION
  script:
    - terraform init
    - terraform apply -auto-approve
  only:
    - master
  environment:
    name: production

Étape 4 : intégration avec Databricks

Après avoir téléchargé les fichiers sur S3, la fonction Lambda doit déclencher une tâche dans Databricks. Cela peut être fait à l'aide de l'API Databricks pour lancer des tâches existantes.

package main

import (
 "bytes"
 "encoding/json"
 "fmt"
 "net/http"
)

// Estrutura para a requisição de iniciar um job no Databricks
type DatabricksJobRequest struct {
 JobID int `json:"job_id"`
}

// Função para acionar um job no Databricks
func triggerDatabricksJob(databricksInstance string, token string, jobID int) error {
 url := fmt.Sprintf("https://%s/api/2.0/jobs/run-now", databricksInstance)
 requestBody, _ := json.Marshal(DatabricksJobRequest{JobID: jobID})
 req, err := http.NewRequest("POST", url, bytes.NewBuffer(requestBody))
 if err != nil {
  return err
 }

 req.Header.Set("Content-Type", "application/json")
 req.Header.Set("Authorization", fmt.Sprintf("Bearer %s", token))

 client := &http.Client{}
 resp, err := client.Do(req)
 if err != nil {
  return err
 }
 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {
  return fmt.Errorf("Failed to trigger Databricks job, status code: %d", resp.StatusCode)
 }

 return nil
}

func main() {
 // ... (código existente para conectar ao SFTP e carregar no S3)

 // Substitua pelos seus valores reais
 databricksInstance := "your-databricks-instance"
 databricksToken := "your-databricks-token"
 databricksJobID := 123 // ID do job que você deseja acionar

 // Acionar o job no Databricks após o upload para o S3
 err := triggerDatabricksJob(databricksInstance, databricksToken, databricksJobID)
 if err != nil {
  log.Fatal("Erro ao acionar o job do Databricks:", err)
 }

 fmt.Println("Job do Databricks acionado com sucesso")
}

Étape 5 : Exécution du pipeline

Poussez le code vers le référentiel GitLab pour que le pipeline s'exécute. Vérifiez que toutes les étapes sont terminées avec succès et que la fonction Lambda est opérationnelle et interagit correctement avec S3 et Databricks.

Une fois le code complet et le fichier .gitlab-ci.yml configurés, vous pouvez exécuter le pipeline en suivant ces étapes :

  • Poussez votre code vers le dépôt GitLab :
package main

import (
 "fmt"
 "log"
 "os"
 "path/filepath"

 "github.com/pkg/sftp"
 "golang.org/x/crypto/ssh"
 "github.com/aws/aws-sdk-go/aws"
 "github.com/aws/aws-sdk-go/aws/session"
 "github.com/aws/aws-sdk-go/service/s3/s3manager"
)

func main() {
 // Configuração do cliente SFTP
 user := "seu_usuario_sftp"
 pass := "sua_senha_sftp"
 host := "endereco_sftp:22"
 config := &ssh.ClientConfig{
  User: user,
  Auth: []ssh.AuthMethod{
   ssh.Password(pass),
  },
  HostKeyCallback: ssh.InsecureIgnoreHostKey(),
 }

 // Conectar ao servidor SFTP
 conn, err := ssh.Dial("tcp", host, config)
 if err != nil {
  log.Fatal(err)
 }
 client, err := sftp.NewClient(conn)
 if err != nil {
  log.Fatal(err)
 }
 defer client.Close()

 // Baixar arquivos do SFTP
 remoteFilePath := "/path/to/remote/file"
 localDir := "/path/to/local/dir"
 localFilePath := filepath.Join(localDir, filepath.Base(remoteFilePath))
 dstFile, err := os.Create(localFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer dstFile.Close()

 srcFile, err := client.Open(remoteFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer srcFile.Close()

 if _, err := srcFile.WriteTo(dstFile); err != nil {
  log.Fatal(err)
 }

 fmt.Println("Arquivo baixado com sucesso:", localFilePath)

 // Configuração do cliente S3
 sess := session.Must(session.NewSession(&aws.Config{
  Region: aws.String("us-west-2"),
 }))
 uploader := s3manager.NewUploader(sess)

 // Carregar arquivo para o S3
 file, err := os.Open(localFilePath)
 if err != nil {
  log.Fatal(err)
 }
 defer file.Close()

 _, err = uploader.Upload(&s3manager.UploadInput{
  Bucket: aws.String("seu-bucket-s3"),
  Key:    aws.String(filepath.Base(localFilePath)),
  Body:   file,
 })
 if err != nil {
  log.Fatal("Falha ao carregar arquivo para o S3:", err)
 }

 fmt.Println("Arquivo carregado com sucesso no S3")
}
provider "aws" {
  region = "us-east-1"
}

resource "aws_iam_role" "lambda_execution_role" {
  name = "lambda_execution_role"

  assume_role_policy = jsonencode({
    Version = "2012-10-17",
    Statement = [
      {
        Action = "sts:AssumeRole",
        Effect = "Allow",
        Principal = {
          Service = "lambda.amazonaws.com"
        },
      },
    ]
  })
}

resource "aws_iam_policy" "lambda_policy" {
  name        = "lambda_policy"
  description = "A policy that allows a lambda function to access S3 and SFTP resources"

  policy = jsonencode({
    Version = "2012-10-17",
    Statement = [
      {
        Action = [
          "s3:ListBucket",
          "s3:GetObject",
          "s3:PutObject",
        ],
        Effect = "Allow",
        Resource = [
          "arn:aws:s3:::seu-bucket-s3",
          "arn:aws:s3:::seu-bucket-s3/*",
        ],
      },
    ]
  })
}

resource "aws_iam_role_policy_attachment" "lambda_policy_attachment" {
  role       = aws_iam_role.lambda_execution_role.name
  policy_arn = aws_iam_policy.lambda_policy.arn
}

resource "aws_lambda_function" "sftp_lambda" {
  function_name = "sftp_lambda_function"

  s3_bucket = "seu-bucket-s3-com-codigo-lambda"
  s3_key    = "sftp-lambda.zip"

  handler = "main"
  runtime = "go1.x"

  role = aws_iam_role.lambda_execution_role.arn

  environment {
    variables = {
      SFTP_HOST     = "endereco_sftp",
      SFTP_USER     = "seu_usuario_sftp",
      SFTP_PASSWORD = "sua_senha_sftp",
      S3_BUCKET     = "seu-bucket-s3",
    }
  }
}

resource "aws_s3_bucket" "s3_bucket" {
  bucket = "seu-bucket-s3"
  acl    = "private"
}
  • GitLab CI/CD détectera le nouveau commit et démarrera automatiquement le pipeline.
  • Suivez l'exécution du pipeline dans GitLab en accédant à la section CI/CD de votre référentiel.
  • Si toutes les étapes sont réussies, votre fonction Lambda sera déployée et prête à être utilisée.

N'oubliez pas que vous devrez configurer des variables d'environnement dans GitLab CI/CD pour stocker des informations sensibles telles que les jetons d'accès et les clés privées. Cela peut être fait dans les « Paramètres » > « CI/CD » > « Variables » de votre projet GitLab.

Assurez-vous également que le jeton Databricks dispose des autorisations nécessaires pour déclencher des tâches et que la tâche existe avec l'ID fourni.

Conclusion

L'automatisation des tâches d'ingénierie des données peut être considérablement simplifiée à l'aide d'outils tels que GitLab CI/CD, Terraform et AWS Lambda. En suivant les étapes décrites dans cet article, vous pouvez créer un système robuste qui automatise la collecte de données et l'intégration entre SFTP, S3 et Databricks, le tout avec l'efficacité et la simplicité de Go. Avec cette approche, vous serez bien équipé pour aborder le problème. défis de l'intégration des données à grande échelle.

Mes contacts :

LinkedIn - Airton Lira Junior

iMasters - Airton Lire Junior

aws #lambda #terraform #gitlab #ci_cd #go #databricks #dataengineering #automation

stages:
  - test
  - build
  - deploy

variables:
  S3_BUCKET: "seu-bucket-s3"
  AWS_DEFAULT_REGION: "us-east-1"
  TF_VERSION: "1.0.0"

before_script:
  - 'which ssh-agent || ( apt-get update -y && apt-get install openssh-client -y )'
  - eval $(ssh-agent -s)
  - echo "$PRIVATE_KEY" | tr -d '\r' | ssh-add -
  - mkdir -p ~/.ssh
  - chmod 700 ~/.ssh
  - ssh-keyscan -H 'endereco_sftp' >> ~/.ssh/known_hosts

test:
  stage: test
  image: golang:1.18
  script:
    - go test -v ./...

build:
  stage: build
  image: golang:1.18
  script:
    - go build -o myapp
    - zip -r sftp-lambda.zip myapp
  artifacts:
    paths:
      - sftp-lambda.zip
  only:
    - master

deploy:
  stage: deploy
  image: hashicorp/terraform:$TF_VERSION
  script:
    - terraform init
    - terraform apply -auto-approve
  only:
    - master
  environment:
    name: production

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Interfaces et polymorphisme en Go: réutiliser le codeInterfaces et polymorphisme en Go: réutiliser le codeApr 29, 2025 am 12:31 AM

Interfaces andPolymorphisMingoenhanceCodeRelevitality andmainaipability.1) Définir les interfaces de théâtre.

Quel est le rôle de la fonction 'init' dans GO?Quel est le rôle de la fonction 'init' dans GO?Apr 29, 2025 am 12:28 AM

TheinitfonctioningorunsautomAticalement pour que la façon dont la convention est en train

Composition d'interface dans Go: construire des abstractions complexesComposition d'interface dans Go: construire des abstractions complexesApr 29, 2025 am 12:24 AM

Les combinaisons d'interface créent des abstractions complexes dans la programmation GO en décomposant les fonctions en petites interfaces focalisées. 1) Définissez le lecteur, l'écrivain et les interfaces plus étroites. 2) Créez des types complexes tels que le fichier et le réseau de réseaux en combinant ces interfaces. 3) Utilisez la fonction ProcessData pour montrer comment gérer ces interfaces combinées. Cette approche améliore la flexibilité du code, la testabilité et la réutilisabilité, mais il faut prendre soin d'éviter une fragmentation excessive et une complexité combinatoire.

Pièges et considérations potentielles lors de l'utilisation des fonctions d'initiés dans GoPièges et considérations potentielles lors de l'utilisation des fonctions d'initiés dans GoApr 29, 2025 am 12:02 AM

InitisctionsingoaReAutomAticalement compte tenu de la fin de la manière

Comment parcourez-vous une carte en Go?Comment parcourez-vous une carte en Go?Apr 28, 2025 pm 05:15 PM

L'article discute de l'itération des cartes dans GO, en se concentrant sur des pratiques sûres, en modifiant les entrées et en considérations de performance pour les grandes cartes.

Comment créez-vous une carte dans Go?Comment créez-vous une carte dans Go?Apr 28, 2025 pm 05:14 PM

L'article discute de la création et de la manipulation de cartes dans GO, y compris des méthodes d'initialisation et de l'ajout / mise à jour des éléments.

Quelle est la différence entre un tableau et une tranche en Go?Quelle est la différence entre un tableau et une tranche en Go?Apr 28, 2025 pm 05:13 PM

L'article traite des différences entre les tableaux et les tranches dans GO, en se concentrant sur la taille, l'allocation de la mémoire, le passage des fonctions et les scénarios d'utilisation. Les tableaux sont de taille fixe, alloués par la pile, tandis que les tranches sont dynamiques, souvent allouées au tas et plus flexibles.

Comment créez-vous une tranche dans GO?Comment créez-vous une tranche dans GO?Apr 28, 2025 pm 05:12 PM

L'article discute de la création et de l'initialisation des tranches en Go, y compris l'utilisation des littéraux, la fonction de faire et de couper des tableaux ou des tranches existantes. Il couvre également la syntaxe de tranche et déterminant la longueur et la capacité des tranches.

See all articles

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

SublimeText3 Linux nouvelle version

SublimeText3 Linux nouvelle version

Dernière version de SublimeText3 Linux

Listes Sec

Listes Sec

SecLists est le compagnon ultime du testeur de sécurité. Il s'agit d'une collection de différents types de listes fréquemment utilisées lors des évaluations de sécurité, le tout en un seul endroit. SecLists contribue à rendre les tests de sécurité plus efficaces et productifs en fournissant facilement toutes les listes dont un testeur de sécurité pourrait avoir besoin. Les types de listes incluent les noms d'utilisateur, les mots de passe, les URL, les charges utiles floues, les modèles de données sensibles, les shells Web, etc. Le testeur peut simplement extraire ce référentiel sur une nouvelle machine de test et il aura accès à tous les types de listes dont il a besoin.

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

VSCode Windows 64 bits Télécharger

VSCode Windows 64 bits Télécharger

Un éditeur IDE gratuit et puissant lancé par Microsoft

PhpStorm version Mac

PhpStorm version Mac

Le dernier (2018.2.1) outil de développement intégré PHP professionnel