데이터 분석에 Python을 사용하는 이유(Excel 또는 Google Sheets가 있는 경우)-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

데이터 분석에 Python을 사용하는 이유(Excel 또는 Google Sheets가 있는 경우)

Mary-Kate Olsen

Nov 17, 2024 pm 04:58 PM

TL;DR: 스프레드시트는 많은 데이터 작업에 적합하지만 대규모 데이터 세트를 처리하고, 고급 시각화를 생성하고, 워크플로를 자동화하거나 기계 학습 모델을 사용해야 하는 경우 Python이 필수적입니다. 중요한 것은 특정 데이터 분석 요구에 맞게 각 도구의 장점을 언제 활용할지 아는 것입니다.
‍

Python은 데이터 작업에 필수적인 것으로 간주되는 경우가 많지만 스프레드시트는 여전히 많은 분석가의 일상적인 요구 사항을 충족하는 가장 실용적인 도구로 남아 있으며 그래도 괜찮습니다. 하지만 데이터 역량을 향상하려면 이를 넘어서는 시기를 아는 것이 중요합니다.

데이터 분석가 또는 데이터 과학자 커리큘럼을 살펴보면 스프레드시트, SQL, Python, 다양한 비즈니스 인텔리전스(BI) 솔루션 등 동일한 핵심 도구를 찾을 수 있습니다. 하지만 데이터 실무자 및 리더들과 이야기를 나누다 보면 "스프레드시트가 대부분의 요구 사항을 처리하는데 왜 Python으로 전환해야 할까요?"라는 공통된 질문이 떠오릅니다.

SQL, Python, AI를 기반으로 하는 회사를 공동 창립한 사람으로서 제 입장은 여러분을 놀라게 할 수도 있습니다. 스프레드시트로 작업을 수행할 수 있다면 스프레드시트를 사용하세요. 이러한 도구는 직관적이고 유연하며 다른 사람에게 작업을 설명하는 데 탁월하다는 점에서 1970년대부터 지속되어 왔습니다.

하지만 한계가 있습니다.

더 많은 임시 분석이나 탐색적 데이터 분석을 수행하거나 기업에서 더 많은 데이터를 처리하기 시작하면 다음과 같은 몇 가지 문제에 곧 직면하게 됩니다.

대규모 데이터세트로 인해 어려움을 겪고 있습니다
제한적인 시각화 및 대시보드 기능을 제공합니다
자동화된 데이터 파이프라인 구축을 어렵게 만듭니다
고급 통계 및 기계 학습 기능이 부족합니다
버전 제어를 지원하지 않으므로 엔지니어링 모범 사례를 따르기가 어렵습니다. 아래에서는 스프레드시트가 많은 작업에 여전히 귀중한 이유와 Python이 데이터 여행의 다음 단계로 필요한 경우에 대해 자세히 설명하겠습니다.

Excel이나 Google 스프레드시트를 사용하는 이유는 무엇인가요?

기본적으로 스프레드시트는 데이터 작업 공간을 완벽하게 제어할 수 있다는 점에서 강력합니다. 자신만의 맞춤형 대시보드를 갖는 것처럼 원하는 방식으로 데이터를 즉시 조작, 시각화 및 분석할 수 있습니다.

사람들이 스프레드시트에 관심을 갖는 두 가지 주요 이유는 다음과 같습니다.

1. 스프레드시트는 유연하고 개인화되어 있습니다.

기술 수준에 관계없이 데이터 실무자가 스프레드시트를 좋아하는 가장 분명한 이유부터 시작하겠습니다. 스프레드시트는 놀라울 정도로 유연하고 사용자 정의가 가능합니다.

스프레드시트에서는 자신의 환경에서 작업하고 이를 완전히 제어할 수 있습니다. 특정 행을 강조표시하고 빠른 차트를 만들고 싶으십니까? 쉬운. 특정 패턴을 강조하기 위해 조건부 서식을 추가하고 싶으십니까? 괜찮아요. 일부 입력을 추가하기 위해 행이나 열을 추가하고 싶나요? 바로 가세요.

Why use Python for data analysis (when you have Excel or Google Sheets)

사용자는 Google Sheets와 같은 공유 작업 공간 환경에서도 모든 권한을 갖습니다. 이는 특히 데이터를 동일한 방식으로 직접 편집할 수 없고 데이터를 더 작은 하위 집합으로 분할하지 않고도 특정 데이터 조각을 호출할 수 없는 기존 BI 솔루션과 달리 매우 강력합니다. 손에서. 실제로 Sigma와 같은 일부 새로운 BI 솔루션은 스프레드시트와 같은 인터페이스를 주요 전략으로 삼아 이 아이디어를 활용하고 있습니다.

대체로 스프레드시트의 사용자 경험에는 매우 직관적인 부분이 있습니다. 우리는 어릴 때부터 수학을 배우며 스프레드시트는 데이터를 보고 모든 숫자가 어떻게 합해지는지 이해하는 훌륭하게 구조화된 방법을 제공합니다.

2. 스프레드시트는 반응적이고 설명 가능합니다.

스프레드시트의 반응성은 숫자 하나를 변경하면 숫자에 연결된 모든 항목이 자동으로 업데이트된다는 의미입니다. 이러한 즉각적인 피드백을 통해 서로 다른 데이터가 서로 어떻게 영향을 미치는지 이해하는 데 적합합니다.

예를 들어 다음과 같이 연결된 셀이 있다고 가정해 보겠습니다.

C1 = A1 B2

반응성은 A1이나 B2를 업데이트할 때 C1이 자동으로 업데이트된다는 의미입니다. 모든 셀 간의 종속성 또는 계보를 추적하는 DAG가 있습니다. 이는 코드와 달리 스프레드시트를 "실행"할 필요가 없기 때문에 매우 강력한 개념입니다. 간단히 세계의 모델을 만들고 입력을 조정한 후 결과가 해당 변화에 어떻게 반응하는지 확인할 수 있습니다.

이러한 반응성은 스프레드시트를 쉽게 이해하는 데 크게 기여합니다. 이해하기 쉬운 수식을 보고 이를 클릭하여 종속 셀을 강조 표시하고 종속 셀을 조정하여 보고 있는 숫자가 어떻게 반응하고 관련되는지 이해할 수 있습니다.

Why use Python for data analysis (when you have Excel or Google Sheets)

위 이미지에서 볼 수 있듯이, 어떤 숫자가 세전 순이익에 가장 많이 기여하는지 알고 싶다면 간단히 셀을 클릭하고 종속 셀을 보면 세전 순이익이 어떤 변수인지 즉시 이해할 수 있습니다.

이러한 이유로 스프레드시트에서 작업을 수행할 수 있다면 아마도 좋은 생각일 것입니다.

‍

파이썬을 사용하는 이유

스프레드시트는 다양한 작업에 탁월하지만 Python은 데이터 작업에 있어 완전히 새로운 가능성의 세계를 열어줍니다. 대규모 데이터 세트 처리부터 복잡한 시각화 생성 및 반복 작업 자동화에 이르기까지 Python이 데이터 워크플로를 위한 강력한 도구인 5가지 이유가 있습니다.

1. Python은 대량의 데이터를 쉽게 처리합니다.

Python을 사용하는 첫 번째이자 가장 분명한 이유는 대규모 데이터 세트를 처리할 때 설명됩니다. Excel은 약 100만 행 x 17,000개 열을 지원할 수 있으며 Google 스프레드시트는 약 1000만 개의 셀을 지원할 수 있습니다. 이것은 많은 것처럼 들릴 수 있으며 대부분의 경우 충분하지만 이 한도에 빠르게 도달할 가능성이 있습니다. 대조적으로, 강력한 시스템의 Python은 훨씬 더 많은 데이터를 지원할 수 있습니다. Polars 및 DuckDB와 같은 새로운 기술을 활용하는 경우 특히 그렇습니다.

시간이 지남에 따라 스프레드시트의 제한이 증가할 수 있지만 Python(특히 SQL과 함께)은 항상 더 많은 것을 처리할 수 있습니다.

2. Python은 고급 및 맞춤형 시각화를 지원합니다.

스프레드시트는 매우 강력한 시각적 기능을 제공할 수 있지만 Python으로 수행할 수 있는 작업의 극히 일부에 불과합니다. 저는 막대형 차트, 꺾은선형 차트, 지도가 대부분의 사례를 포괄한다고 믿습니다. 하지만 데이터로 스토리를 전달하려면 일상적인 작업에서 벗어나 매력적인 캔버스를 만들어야 하는 경우가 많습니다.

예를 들어, 저는 데이터가 A 지점에서 B 지점으로 어떻게 흐르는지 설명하는 훌륭한 Sankey 다이어그램을 좋아합니다. 또는 다양한 범주의 속성을 비교하기 위해 레이더 플롯을 만들고 싶을 수도 있습니다.

plotly, seaborn,bok 같은 라이브러리를 사용하면 Python에서 이러한 기능을 매우 쉽게 구축할 수 있습니다.

예를 들기 위해 이전 게시물의 Superdope 예시로 돌아가서 아래와 같은 선버스트 플롯에서 제품 성능을 비교하고 싶다고 가정해 보겠습니다.

Why use Python for data analysis (when you have Excel or Google Sheets)

plotly와 같은 라이브러리를 사용하여 코드로 이 차트를 생성하는 것은 매우 간단합니다.

import plotly.express as px

# Create the sunburst plot
fig = px.sunburst(
    df_sunburst,
    path=['Region', 'Category', 'Product'],
    values='Sales',
    color='Region',
    title='Sales Distribution by Region, Category, and Product',
    width=800,
    height=450
)

# Update layout
fig.update_layout(
    margin=dict(t=50, l=0, r=0, b=0)
)

# Show the plot
fig.show()
And this code can be generated by AI in about 3 seconds. Building something similar in a spreadsheet would require a lot more time and effort.

3. Python은 데이터 파이프라인 및 정리를 자동화하는 데 도움이 됩니다.

데이터 작업을 하다 보면 반복적인 데이터 변환 작업을 수행하는 경우가 많습니다. 예를 들어, 고객이 정기적으로 CSV 또는 Excel 파일을 보내는 업계에서 일하고 있으며 데이터를 정리하고 형식을 지정하고 이를 보고서로 변환하거나 다음 단계를 위해 준비해야 한다고 가정해 보겠습니다. 이것은 Python을 위한 완벽한 작업입니다. 자신의 서버를 관리하고 있고 자원이 풍부한 경우 스크립트를 작성하고 Cron 작업을 사용하여 실행되도록 예약할 수 있습니다. 또는 즉시 작동하고 오케스트레이션 및 더 복잡한 작업을 처리하는 관리형 솔루션을 사용하려는 경우 , Dagster 또는 Airflow와 같은 솔루션을 사용할 수 있습니다.

일반적으로 요즘에는 자신이 무엇을 하고 있는지 정확히 알지 않는 한 자체 크론 작업을 피하는 것이 가장 좋습니다. 이러한 작업이 계속 실행되고 있는지 확인하고, 적절한 로깅 및 모니터링을 수행하고, 적절하게 조정하면 많은 작업이 빠르게 진행될 수 있습니다.

참고: 단순히 데이터 파이프라인을 구축하는 가볍고 빠른 방법을 찾고 있다면 Fabi.ai가 좋은 선택일 수 있습니다. 몇 분 만에 CSV 파일 및 Excel 파일을 포함한 모든 소스 간의 데이터 랭글링 및 정리 파이프라인을 쉽게 설정할 수 있도록 도와드립니다.

4. Python은 복잡한 데이터 분석 및 기계 학습을 지원합니다.

스프레드시트로 많은 작업을 수행할 수 있지만 고급 통계 및 기계 학습 모델을 구축하고 사용하는 것은 일반적으로 그 중 하나가 아닙니다. 단순히 일변량 데이터 분석과 분포, 평균 등과 같은 몇 가지 간단한 계산을 수행하는 경우 스프레드시트를 사용하여 작업을 완료할 수 있습니다. 그러나 보다 발전된 다변량 분석이나 클러스터링, 예측 및 이탈 예측을 시도하려는 경우 Python에는 기본적으로 작동하는 풍부한 도구 모음이 갖추어져 있습니다.

다음은 해당 Python 패키지와 함께 수행할 수 있는 분석 유형의 몇 가지 예입니다.

클러스터링을 사용한 구매자 또는 고객 그룹화: sklean.cluster(예: Kmeans)
영업 또는 마케팅 파이프라인 시계열 예측: Prophet 또는 통계 모델(예: ARIMA)
고객 이탈 예측: scikit-survival 이것들은 모두 세계 최고의 엔지니어와 연구자들이 구현한 고급 기계 학습 및 통계 모델로, 무료로 제공되며 Python에서 즉시 사용할 수 있습니다.

5. Python은 코드 버전 관리 및 엔지니어링 모범 사례를 따르는 데 도움이 됩니다.

마지막으로, 대부분의 경우 작업을 추적 및 재현할 수 있는지 확인하는 것이 좋습니다.

실제로 이것이 의미하는 바는 다른 사람(또는 나중에 본인)이 귀하의 분석을 볼 때 다음 사항을 이해할 수 있어야 한다는 것입니다.

데이터 출처
데이터가 어떻게 조작되었으며 결과를 얻은 방법
동일한 결과를 독립적으로 재현 가능 따라서 스프레드시트 작업이 데이터를 내보내고 원본 소스와 연결이 끊긴 곳에서 조작하는 것을 의미한다면 결과를 재현하기가 매우 어려울 수 있습니다. 이는 또한 분석 중에 수행하는 단계가 버전 제어되지 않음을 의미합니다. 분석을 수행하고 조정하는 동안 정확한 단계가 기록되지 않을 수도 있습니다. 이로 인해 우리 모두가 한 번 이상 겪었던 어려운 상황에 처할 수 있습니다. 스프레드시트에 멋진 분석을 작성하고 이를 동료들과 공유한 후 나중에 다시 살펴보고 데이터가 달랐다. 무슨 일이 일어났는지 이해하기 위해 변경 내역을 살펴봐도 아무 소용이 없을 수도 있습니다.

Github 또는 Gitlab과 같은 버전 제어 시스템을 사용하고 분석을 수행하면서 기본 코드에 변경 사항을 커밋하면 이러한 상황을 방지하는 데 도움이 될 수 있습니다.

‍

평결: 대규모 데이터 세트의 경우; 고급 분석 및 시각화; 자동화하면 Python이 승리할까요?

복잡한 임시 또는 탐색적 데이터 분석을 수행하거나, 고급 기계 학습 기술을 사용하거나, 복잡한 시각화를 구축하려는 경우 Python은 해당 작업에 가장 적합하고 강력한 도구 중 하나입니다.

예, 스프레드시트가 엄청난 인기를 누리는 데에는 그럴 만한 이유가 있습니다. 상대적으로 작은 데이터 세트를 처리하고 자동화할 필요가 없는 일회성 분석에서는 Excel이나 Google Sheets가 훌륭한 도구입니다.

그러나 Python은 Excel이나 Google Sheets에서 문제가 될 수 있는 대규모 데이터 세트를 처리할 때 탁월한 성능을 발휘합니다. Python은 특히 어떤 형태로든 데이터 변환 및 정리가 필요한 경우 데이터 파이프라인을 자동화하는 데에도 일반적으로 사용됩니다.

대부분의 경우와 마찬가지로 특정 도구를 사용하여 장점을 최대한 활용할 수 있는 시간과 장소가 있습니다. 우리는 모든 도구 사이의 다리 역할을 하기 위해 Fabi.ai를 구축했으므로 두 세계의 장점을 모두 누릴 수 있습니다.

스프레드시트, 파일 등 모든 데이터 소스에 매우 쉽게 연결하고 경량 데이터 파이프라인을 구축할 수 있습니다. AI로 강화된 내장된 SQL 및 Python 인터페이스를 사용하면 이전 경험에 관계없이 고급 기계 학습 및 통계 모델을 매우 쉽게 활용할 수 있습니다. 저희에 대해 관심이 있으시다면 오늘 2분 이내에 무료로 시작해 보실 수 있습니다.

위 내용은 데이터 분석에 Python을 사용하는 이유(Excel 또는 Google Sheets가 있는 경우)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명