>백엔드 개발 >파이썬 튜토리얼 >복잡한 데이터 통합이 좋은 작업 오케스트레이션을 만든다고 말하면 어떨까요?

복잡한 데이터 통합이 좋은 작업 오케스트레이션을 만든다고 말하면 어떨까요?

DDD
DDD원래의
2024-09-13 18:15:39324검색

데이터 문제가 아무리 복잡하더라도 언제든지 분할하여 정복할 수 있습니다. ???

이 기사에서는 완전 오픈 소스 Python 라이브러리인 Taipy를 사용하여 복잡한 데이터 문제, 데이터 처리, 데이터 관리를 해결하는 방법을 자세히 설명합니다. 데이터 정리, 작업 조정, 다양한 결과 탐색 등 무엇을 하든 Taipy의 직관적인 디자인을 통해 모든 작업을 처리할 수 있습니다.

 
What-if I told you complex Data Integration makes good Task Orchestration?

스타타이피 ⭐️

 

Taipy의 시나리오 관리 기반

Taipy가 데이터 워크플로를 간소화하는 데 어떻게 도움이 되는지 세 단계를 통해 살펴보겠습니다.


1. 데이터 통합: 필요한 데이터 확보

모든 AI, ML 및 데이터 기반 프로젝트는 당연히 데이터에서 시작됩니다!
그리고 단일하고 깨끗한 데이터 세트만큼 간단하지는 않습니다. 대부분의 경우 데이터베이스, API, 플랫 파일 또는 기타 외부 소스에서 데이터를 가져오며 때로는 동일한 프로젝트에 있는 경우도 있습니다. 다양한 소스로부터 데이터를 수집하고 통합하는 Taipy의 데이터 통합이 바로 여기에 있습니다.

 

Taipy에서는 이 프로세스가 주요 추상화인 데이터 노드

를 통해 단순화됩니다.

 

데이터 노드는 데이터를 나타내지만 직접 저장하지는 않습니다. 대신, CSV 파일, 데이터베이스 테이블, API 응답 등 실제 데이터를 읽고 쓰는 데 필요한 모든 메타데이터를 보유합니다.

What-if I told you complex Data Integration makes good Task Orchestration?

 

다음은 CSV용 데이터 노드를 정의하는 간단한 예입니다.

from taipy import Config
initial_dataset_cfg = Config.configure_data_node(id="initial_dataset",
                                                 storage_type="csv",
                                                 path="data/dataset.csv",
                                                 scope=Scope.GLOBAL)

이러한 추상화를 통해 Taipy는 데이터 관리를 담당하므로 사용자는 데이터 변환 및 처리에 집중할 수 있습니다.


2. 작업 조정: 그 많은 데이터로 무엇을 하고 있나요?

이제 데이터가 준비되었으니 어떻게 하시나요? 모든 데이터 워크플로에서 다음 단계에는 데이터를 처리하고 변환하는 작업을 정의하는 작업이 포함됩니다. 이것이 바로 작업 오케스트레이션

이라고 부르는 것입니다.

Taipy의 태스크는 데이터 노드를 입력으로 받아 변환을 수행한 다음 데이터 노드를 출력하는 함수와 같습니다.

What-if I told you complex Data Integration makes good Task Orchestration?

예를 들어 일부 데이터를 필터링하거나 새로운 측정항목을 계산할 수 있습니다. 다음은 열의 합계를 계산하기 위해 작업을 생성하는 예입니다.

clean_data_task_cfg = Config.configure_task(id="clean_data",
                                            function=clean_data,
                                            input=initial_dataset_cfg,
                                            output=cleaned_dataset_cfg,
                                            skippable=True)

작업을 정의한 후에는 작업을 파이프라인으로 정렬하여 단계가 올바른 순서로 실행되도록 할 수 있습니다. 이를 통해 데이터 변환, 모델 구축, 보고서 생성 등의 작업 흐름을 쉽게 구축할 수 있습니다.


3. What-If 분석: 다양한 시나리오 탐색

데이터와 워크플로가 설정되면 다양한 시나리오 탐색을 시작할 수 있습니다. 이것이 바로 What-if 분석이 중요한 역할을 하는 부분입니다.

Taipy의 시나리오는 해결하려는 문제의 특정 사례를 나타내며, 이를 통해 다양한 매개변수를 테스트하고 결과에 어떤 영향을 미치는지 확인할 수 있습니다. 입력 데이터나 가정을 조정하면 처음부터 다시 시작하지 않고도 다양한 시나리오를 모델링할 수 있습니다.

What-if I told you complex Data Integration makes good Task Orchestration?

 

Taipy에서 시나리오를 정의하는 방법은 다음과 같습니다.

scenario_cfg = Config.configure_scenario(id="scenario", task_configs=[clean_data_task_cfg, predict_task_cfg,evaluate_task_cfg], frequency=Frequency.MONTHLY)
tp.Core().run()
my_first_scenario = create_and_run_scenario(dt.datetime(2021, 1, 25))
predictions = my_first_scenario.predictions.read()
print("Predictions\n", predictions)

이를 통해 동일한 프레임워크 내에서 민감도 분석을 쉽게 수행하거나 결과를 최적화할 수 있습니다. 판매 모델에 대해 다양한 할인율을 테스트하고 싶으십니까? 새 시나리오를 만들고 매개변수를 조정한 후 다시 실행하면 됩니다.


Taipy와 기타 파이프라인 관리 도구 비교

Taipy가 Apache Airflow, Luigi 또는 Prefect와 같은 다른 인기 파이프라인 조정 도구와 어떻게 비교되는지 궁금하실 것입니다. 이러한 도구는 분산 환경 전체에서 작업 일정을 관리하는 데 유용하지만 Taipy는 특히 시나리오 관리 및 가상 분석과 관련하여 Python 단순성에 중점을 둔다는 점에서 두각을 나타냅니다.

  • Airflow/Luigi/Prefect: 일반적으로 ETL 프로세스 조정, 예약 및 워크플로 모니터링에 중점을 둡니다.

  • Taipy: 워크플로 조정 기능을 제공할 뿐만 아니라 고유한 시나리오 추상화로 가정 분석을 단순화하여 다양한 결과를 원활하게 모델링할 수 있습니다.

What-if I told you complex Data Integration makes good Task Orchestration?

최소한의 설정으로 Python에서 복잡한 데이터 워크플로를 처리하려는 개발자를 위해 Taipy는 보다 간단한 코드 우선 접근 방식을 제공합니다.


결론: 타이피로 분열하고 정복하라

분할 및 정복 전략은 데이터 문제의 규모나 복잡성에 관계없이 항상 승리합니다! Taipy를 사용하면 데이터 통합부터 작업 조정, 가상 분석까지 모든 것을 한 곳에서 처리할 수 있습니다. 그리고 데이터 시각화로 마무리할 수도 있습니다.

Taipy를 시험해 볼 준비가 되셨나요? 지금 GitHub 저장소를 확인하고 이것이 데이터 워크플로를 어떻게 간소화할 수 있는지 알아보세요!

 

스타타이피 ⭐️

 

별표 ⭐를 남기고 피드백이나 작업한 시나리오를 아래 댓글로 공유하는 것을 잊지 마세요!

위 내용은 복잡한 데이터 통합이 좋은 작업 오케스트레이션을 만든다고 말하면 어떨까요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.