찾다
백엔드 개발파이썬 튜토리얼데이터 분석에 Python을 사용하는 이유(Excel 또는 Google Sheets가 있는 경우)

TL;DR: 스프레드시트는 많은 데이터 작업에 적합하지만 대규모 데이터 세트를 처리하고, 고급 시각화를 생성하고, 워크플로를 자동화하거나 기계 학습 모델을 사용해야 하는 경우 Python이 필수적입니다. 중요한 것은 특정 데이터 분석 요구에 맞게 각 도구의 장점을 언제 활용할지 아는 것입니다.

Python은 데이터 작업에 필수적인 것으로 간주되는 경우가 많지만 스프레드시트는 여전히 많은 분석가의 일상적인 요구 사항을 충족하는 가장 실용적인 도구로 남아 있으며 그래도 괜찮습니다. 하지만 데이터 역량을 향상하려면 이를 넘어서는 시기를 아는 것이 중요합니다.

데이터 분석가 또는 데이터 과학자 커리큘럼을 살펴보면 스프레드시트, SQL, Python, 다양한 비즈니스 인텔리전스(BI) 솔루션 등 동일한 핵심 도구를 찾을 수 있습니다. 하지만 데이터 실무자 및 리더들과 이야기를 나누다 보면 "스프레드시트가 대부분의 요구 사항을 처리하는데 왜 Python으로 전환해야 할까요?"라는 공통된 질문이 떠오릅니다.

SQL, Python, AI를 기반으로 하는 회사를 공동 창립한 사람으로서 제 입장은 여러분을 놀라게 할 수도 있습니다. 스프레드시트로 작업을 수행할 수 있다면 스프레드시트를 사용하세요. 이러한 도구는 직관적이고 유연하며 다른 사람에게 작업을 설명하는 데 탁월하다는 점에서 1970년대부터 지속되어 왔습니다.

하지만 한계가 있습니다.

더 많은 임시 분석이나 탐색적 데이터 분석을 수행하거나 기업에서 더 많은 데이터를 처리하기 시작하면 다음과 같은 몇 가지 문제에 곧 직면하게 됩니다.

  • 대규모 데이터세트로 인해 어려움을 겪고 있습니다
  • 제한적인 시각화 및 대시보드 기능을 제공합니다
  • 자동화된 데이터 파이프라인 구축을 어렵게 만듭니다
  • 고급 통계 및 기계 학습 기능이 부족합니다
  • 버전 제어를 지원하지 않으므로 엔지니어링 모범 사례를 따르기가 어렵습니다. 아래에서는 스프레드시트가 많은 작업에 여전히 귀중한 이유와 Python이 데이터 여행의 다음 단계로 필요한 경우에 대해 자세히 설명하겠습니다.

Excel이나 Google 스프레드시트를 사용하는 이유는 무엇인가요?

기본적으로 스프레드시트는 데이터 작업 공간을 완벽하게 제어할 수 있다는 점에서 강력합니다. 자신만의 맞춤형 대시보드를 갖는 것처럼 원하는 방식으로 데이터를 즉시 조작, 시각화 및 분석할 수 있습니다.

사람들이 스프레드시트에 관심을 갖는 두 가지 주요 이유는 다음과 같습니다.

1. 스프레드시트는 유연하고 개인화되어 있습니다.

기술 수준에 관계없이 데이터 실무자가 스프레드시트를 좋아하는 가장 분명한 이유부터 시작하겠습니다. 스프레드시트는 놀라울 정도로 유연하고 사용자 정의가 가능합니다.

스프레드시트에서는 자신의 환경에서 작업하고 이를 완전히 제어할 수 있습니다. 특정 행을 강조표시하고 빠른 차트를 만들고 싶으십니까? 쉬운. 특정 패턴을 강조하기 위해 조건부 서식을 추가하고 싶으십니까? 괜찮아요. 일부 입력을 추가하기 위해 행이나 열을 추가하고 싶나요? 바로 가세요.

Why use Python for data analysis (when you have Excel or Google Sheets)

사용자는 Google Sheets와 같은 공유 작업 공간 환경에서도 모든 권한을 갖습니다. 이는 특히 데이터를 동일한 방식으로 직접 편집할 수 없고 데이터를 더 작은 하위 집합으로 분할하지 않고도 특정 데이터 조각을 호출할 수 없는 기존 BI 솔루션과 달리 매우 강력합니다. 손에서. 실제로 Sigma와 같은 일부 새로운 BI 솔루션은 스프레드시트와 같은 인터페이스를 주요 전략으로 삼아 이 아이디어를 활용하고 있습니다.

대체로 스프레드시트의 사용자 경험에는 매우 직관적인 부분이 있습니다. 우리는 어릴 때부터 수학을 배우며 스프레드시트는 데이터를 보고 모든 숫자가 어떻게 합해지는지 이해하는 훌륭하게 구조화된 방법을 제공합니다.

2. 스프레드시트는 반응적이고 설명 가능합니다.

스프레드시트의 반응성은 숫자 하나를 변경하면 숫자에 연결된 모든 항목이 자동으로 업데이트된다는 의미입니다. 이러한 즉각적인 피드백을 통해 서로 다른 데이터가 서로 어떻게 영향을 미치는지 이해하는 데 적합합니다.

예를 들어 다음과 같이 연결된 셀이 있다고 가정해 보겠습니다.

C1 = A1 B2

반응성은 A1이나 B2를 업데이트할 때 C1이 자동으로 업데이트된다는 의미입니다. 모든 셀 간의 종속성 또는 계보를 추적하는 DAG가 있습니다. 이는 코드와 달리 스프레드시트를 "실행"할 필요가 없기 때문에 매우 강력한 개념입니다. 간단히 세계의 모델을 만들고 입력을 조정한 후 결과가 해당 변화에 어떻게 반응하는지 확인할 수 있습니다.

이러한 반응성은 스프레드시트를 쉽게 이해하는 데 크게 기여합니다. 이해하기 쉬운 수식을 보고 이를 클릭하여 종속 셀을 강조 표시하고 종속 셀을 조정하여 보고 있는 숫자가 어떻게 반응하고 관련되는지 이해할 수 있습니다.

Why use Python for data analysis (when you have Excel or Google Sheets)

위 이미지에서 볼 수 있듯이, 어떤 숫자가 세전 순이익에 가장 많이 기여하는지 알고 싶다면 간단히 셀을 클릭하고 종속 셀을 보면 세전 순이익이 어떤 변수인지 즉시 이해할 수 있습니다.

이러한 이유로 스프레드시트에서 작업을 수행할 수 있다면 아마도 좋은 생각일 것입니다.

파이썬을 사용하는 이유

스프레드시트는 다양한 작업에 탁월하지만 Python은 데이터 작업에 있어 완전히 새로운 가능성의 세계를 열어줍니다. 대규모 데이터 세트 처리부터 복잡한 시각화 생성 및 반복 작업 자동화에 이르기까지 Python이 데이터 워크플로를 위한 강력한 도구인 5가지 이유가 있습니다.

1. Python은 대량의 데이터를 쉽게 처리합니다.

Python을 사용하는 첫 번째이자 가장 분명한 이유는 대규모 데이터 세트를 처리할 때 설명됩니다. Excel은 약 100만 행 x 17,000개 열을 지원할 수 있으며 Google 스프레드시트는 약 1000만 개의 셀을 지원할 수 있습니다. 이것은 많은 것처럼 들릴 수 있으며 대부분의 경우 충분하지만 이 한도에 빠르게 도달할 가능성이 있습니다. 대조적으로, 강력한 시스템의 Python은 훨씬 더 많은 데이터를 지원할 수 있습니다. Polars 및 DuckDB와 같은 새로운 기술을 활용하는 경우 특히 그렇습니다.

시간이 지남에 따라 스프레드시트의 제한이 증가할 수 있지만 Python(특히 SQL과 함께)은 항상 더 많은 것을 처리할 수 있습니다.

2. Python은 고급 및 맞춤형 시각화를 지원합니다.

스프레드시트는 매우 강력한 시각적 기능을 제공할 수 있지만 Python으로 수행할 수 있는 작업의 극히 일부에 불과합니다. 저는 막대형 차트, 꺾은선형 차트, 지도가 대부분의 사례를 포괄한다고 믿습니다. 하지만 데이터로 스토리를 전달하려면 일상적인 작업에서 벗어나 매력적인 캔버스를 만들어야 하는 경우가 많습니다.

예를 들어, 저는 데이터가 A 지점에서 B 지점으로 어떻게 흐르는지 설명하는 훌륭한 Sankey 다이어그램을 좋아합니다. 또는 다양한 범주의 속성을 비교하기 위해 레이더 플롯을 만들고 싶을 수도 있습니다.

plotly, seaborn,bok 같은 라이브러리를 사용하면 Python에서 이러한 기능을 매우 쉽게 구축할 수 있습니다.

예를 들기 위해 이전 게시물의 Superdope 예시로 돌아가서 아래와 같은 선버스트 플롯에서 제품 성능을 비교하고 싶다고 가정해 보겠습니다.

Why use Python for data analysis (when you have Excel or Google Sheets)

plotly와 같은 라이브러리를 사용하여 코드로 이 차트를 생성하는 것은 매우 간단합니다.

import plotly.express as px

# Create the sunburst plot
fig = px.sunburst(
    df_sunburst,
    path=['Region', 'Category', 'Product'],
    values='Sales',
    color='Region',
    title='Sales Distribution by Region, Category, and Product',
    width=800,
    height=450
)

# Update layout
fig.update_layout(
    margin=dict(t=50, l=0, r=0, b=0)
)

# Show the plot
fig.show()
And this code can be generated by AI in about 3 seconds. Building something similar in a spreadsheet would require a lot more time and effort.

3. Python은 데이터 파이프라인 및 정리를 자동화하는 데 도움이 됩니다.

데이터 작업을 하다 보면 반복적인 데이터 변환 작업을 수행하는 경우가 많습니다. 예를 들어, 고객이 정기적으로 CSV 또는 Excel 파일을 보내는 업계에서 일하고 있으며 데이터를 정리하고 형식을 지정하고 이를 보고서로 변환하거나 다음 단계를 위해 준비해야 한다고 가정해 보겠습니다. 이것은 Python을 위한 완벽한 작업입니다. 자신의 서버를 관리하고 있고 자원이 풍부한 경우 스크립트를 작성하고 Cron 작업을 사용하여 실행되도록 예약할 수 있습니다. 또는 즉시 작동하고 오케스트레이션 및 더 복잡한 작업을 처리하는 관리형 솔루션을 사용하려는 경우 , Dagster 또는 Airflow와 같은 솔루션을 사용할 수 있습니다.

일반적으로 요즘에는 자신이 무엇을 하고 있는지 정확히 알지 않는 한 자체 크론 작업을 피하는 것이 가장 좋습니다. 이러한 작업이 계속 실행되고 있는지 확인하고, 적절한 로깅 및 모니터링을 수행하고, 적절하게 조정하면 많은 작업이 빠르게 진행될 수 있습니다.

참고: 단순히 데이터 파이프라인을 구축하는 가볍고 빠른 방법을 찾고 있다면 Fabi.ai가 좋은 선택일 수 있습니다. 몇 분 만에 CSV 파일 및 Excel 파일을 포함한 모든 소스 간의 데이터 랭글링 및 정리 파이프라인을 쉽게 설정할 수 있도록 도와드립니다.

4. Python은 복잡한 데이터 분석 및 기계 학습을 지원합니다.

스프레드시트로 많은 작업을 수행할 수 있지만 고급 통계 및 기계 학습 모델을 구축하고 사용하는 것은 일반적으로 그 중 하나가 아닙니다. 단순히 일변량 데이터 분석과 분포, 평균 등과 같은 몇 가지 간단한 계산을 수행하는 경우 스프레드시트를 사용하여 작업을 완료할 수 있습니다. 그러나 보다 발전된 다변량 분석이나 클러스터링, 예측 및 이탈 예측을 시도하려는 경우 Python에는 기본적으로 작동하는 풍부한 도구 모음이 갖추어져 있습니다.

다음은 해당 Python 패키지와 함께 수행할 수 있는 분석 유형의 몇 가지 예입니다.

  • 클러스터링을 사용한 구매자 또는 고객 그룹화: sklean.cluster(예: Kmeans)
  • 영업 또는 마케팅 파이프라인 시계열 예측: Prophet 또는 통계 모델(예: ARIMA)
  • 고객 이탈 예측: scikit-survival 이것들은 모두 세계 최고의 엔지니어와 연구자들이 구현한 고급 기계 학습 및 통계 모델로, 무료로 제공되며 Python에서 즉시 사용할 수 있습니다.

5. Python은 코드 버전 관리 및 엔지니어링 모범 사례를 따르는 데 도움이 됩니다.

마지막으로, 대부분의 경우 작업을 추적 및 재현할 수 있는지 확인하는 것이 좋습니다.

실제로 이것이 의미하는 바는 다른 사람(또는 나중에 본인)이 귀하의 분석을 볼 때 다음 사항을 이해할 수 있어야 한다는 것입니다.

  • 데이터 출처
  • 데이터가 어떻게 조작되었으며 결과를 얻은 방법
  • 동일한 결과를 독립적으로 재현 가능 따라서 스프레드시트 작업이 데이터를 내보내고 원본 소스와 연결이 끊긴 곳에서 조작하는 것을 의미한다면 결과를 재현하기가 매우 어려울 수 있습니다. 이는 또한 분석 중에 수행하는 단계가 버전 제어되지 않음을 의미합니다. 분석을 수행하고 조정하는 동안 정확한 단계가 기록되지 않을 수도 있습니다. 이로 인해 우리 모두가 한 번 이상 겪었던 어려운 상황에 처할 수 있습니다. 스프레드시트에 멋진 분석을 작성하고 이를 동료들과 공유한 후 나중에 다시 살펴보고 데이터가 달랐다. 무슨 일이 일어났는지 이해하기 위해 변경 내역을 살펴봐도 아무 소용이 없을 수도 있습니다.

Github 또는 Gitlab과 같은 버전 제어 시스템을 사용하고 분석을 수행하면서 기본 코드에 변경 사항을 커밋하면 이러한 상황을 방지하는 데 도움이 될 수 있습니다.

평결: 대규모 데이터 세트의 경우; 고급 분석 및 시각화; 자동화하면 Python이 승리할까요?

복잡한 임시 또는 탐색적 데이터 분석을 수행하거나, 고급 기계 학습 기술을 사용하거나, 복잡한 시각화를 구축하려는 경우 Python은 해당 작업에 가장 적합하고 강력한 도구 중 하나입니다.

예, 스프레드시트가 엄청난 인기를 누리는 데에는 그럴 만한 이유가 있습니다. 상대적으로 작은 데이터 세트를 처리하고 자동화할 필요가 없는 일회성 분석에서는 Excel이나 Google Sheets가 훌륭한 도구입니다.

그러나 Python은 Excel이나 Google Sheets에서 문제가 될 수 있는 대규모 데이터 세트를 처리할 때 탁월한 성능을 발휘합니다. Python은 특히 어떤 형태로든 데이터 변환 및 정리가 필요한 경우 데이터 파이프라인을 자동화하는 데에도 일반적으로 사용됩니다.

대부분의 경우와 마찬가지로 특정 도구를 사용하여 장점을 최대한 활용할 수 있는 시간과 장소가 있습니다. 우리는 모든 도구 사이의 다리 역할을 하기 위해 Fabi.ai를 구축했으므로 두 세계의 장점을 모두 누릴 수 있습니다.

스프레드시트, 파일 등 모든 데이터 소스에 매우 쉽게 연결하고 경량 데이터 파이프라인을 구축할 수 있습니다. AI로 강화된 내장된 SQL 및 Python 인터페이스를 사용하면 이전 경험에 관계없이 고급 기계 학습 및 통계 모델을 매우 쉽게 활용할 수 있습니다. 저희에 대해 관심이 있으시다면 오늘 2분 이내에 무료로 시작해 보실 수 있습니다.

위 내용은 데이터 분석에 Python을 사용하는 이유(Excel 또는 Google Sheets가 있는 경우)의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법Python을 사용하여 텍스트 파일의 ZIPF 배포를 찾는 방법Mar 05, 2025 am 09:58 AM

이 튜토리얼은 Python을 사용하여 Zipf의 법칙의 통계 개념을 처리하는 방법을 보여주고 법을 처리 할 때 Python의 읽기 및 대형 텍스트 파일을 정렬하는 효율성을 보여줍니다. ZIPF 분포라는 용어가 무엇을 의미하는지 궁금 할 것입니다. 이 용어를 이해하려면 먼저 Zipf의 법칙을 정의해야합니다. 걱정하지 마세요. 지침을 단순화하려고 노력할 것입니다. Zipf의 법칙 Zipf의 법칙은 단순히 : 큰 자연어 코퍼스에서 가장 자주 발생하는 단어는 두 번째 빈번한 단어, 세 번째 빈번한 단어보다 세 번, 네 번째 빈번한 단어 등 4 배나 자주 발생합니다. 예를 살펴 보겠습니다. 미국 영어로 브라운 코퍼스를 보면 가장 빈번한 단어는 "TH입니다.

HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?HTML을 구문 분석하기 위해 아름다운 수프를 어떻게 사용합니까?Mar 10, 2025 pm 06:54 PM

이 기사에서는 HTML을 구문 분석하기 위해 파이썬 라이브러리 인 아름다운 수프를 사용하는 방법을 설명합니다. 데이터 추출, 다양한 HTML 구조 및 오류 처리 및 대안 (SEL과 같은 Find (), find_all (), select () 및 get_text ()와 같은 일반적인 방법을 자세히 설명합니다.

Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Tensorflow 또는 Pytorch로 딥 러닝을 수행하는 방법은 무엇입니까?Mar 10, 2025 pm 06:52 PM

이 기사는 딥 러닝을 위해 텐서 플로와 Pytorch를 비교합니다. 데이터 준비, 모델 구축, 교육, 평가 및 배포와 관련된 단계에 대해 자세히 설명합니다. 프레임 워크, 특히 계산 포도와 관련하여 주요 차이점

파이썬 객체의 직렬화 및 사제화 : 1 부파이썬 객체의 직렬화 및 사제화 : 1 부Mar 08, 2025 am 09:39 AM

파이썬 객체의 직렬화 및 사막화는 사소한 프로그램의 주요 측면입니다. 무언가를 Python 파일에 저장하면 구성 파일을 읽거나 HTTP 요청에 응답하는 경우 객체 직렬화 및 사태화를 수행합니다. 어떤 의미에서, 직렬화와 사제화는 세계에서 가장 지루한 것들입니다. 이 모든 형식과 프로토콜에 대해 누가 걱정합니까? 일부 파이썬 객체를 지속하거나 스트리밍하여 나중에 완전히 검색하려고합니다. 이것은 세상을 개념적 차원에서 볼 수있는 좋은 방법입니다. 그러나 실제 수준에서 선택한 직렬화 체계, 형식 또는 프로토콜은 속도, 보안, 유지 보수 상태 및 프로그램의 기타 측면을 결정할 수 있습니다.

파이썬의 수학 모듈 : 통계파이썬의 수학 모듈 : 통계Mar 09, 2025 am 11:40 AM

Python의 통계 모듈은 강력한 데이터 통계 분석 기능을 제공하여 생물 통계 및 비즈니스 분석과 같은 데이터의 전반적인 특성을 빠르게 이해할 수 있도록 도와줍니다. 데이터 포인트를 하나씩 보는 대신 평균 또는 분산과 같은 통계를보고 무시할 수있는 원래 데이터에서 트렌드와 기능을 발견하고 대형 데이터 세트를보다 쉽고 효과적으로 비교하십시오. 이 튜토리얼은 평균을 계산하고 데이터 세트의 분산 정도를 측정하는 방법을 설명합니다. 달리 명시되지 않는 한,이 모듈의 모든 함수는 단순히 평균을 합산하는 대신 평균 () 함수의 계산을 지원합니다. 부동 소수점 번호도 사용할 수 있습니다. 무작위로 가져옵니다 수입 통계 Fracti에서

파이썬으로 전문 오류 처리파이썬으로 전문 오류 처리Mar 04, 2025 am 10:58 AM

이 튜토리얼에서는 전체 시스템 관점에서 Python의 오류 조건을 처리하는 방법을 배웁니다. 오류 처리는 설계의 중요한 측면이며 최종 사용자까지 가장 낮은 수준 (때로는 하드웨어)에서 교차합니다. y라면

인기있는 파이썬 라이브러리와 그 용도는 무엇입니까?인기있는 파이썬 라이브러리와 그 용도는 무엇입니까?Mar 21, 2025 pm 06:46 PM

이 기사는 Numpy, Pandas, Matplotlib, Scikit-Learn, Tensorflow, Django, Flask 및 요청과 같은 인기있는 Python 라이브러리에 대해 설명하고 과학 컴퓨팅, 데이터 분석, 시각화, 기계 학습, 웹 개발 및 H에서의 사용에 대해 자세히 설명합니다.

아름다운 수프로 파이썬에서 웹 페이지를 긁어 내기 : 검색 및 DOM 수정아름다운 수프로 파이썬에서 웹 페이지를 긁어 내기 : 검색 및 DOM 수정Mar 08, 2025 am 10:36 AM

이 튜토리얼은 간단한 나무 탐색을 넘어서 DOM 조작에 중점을 둔 아름다운 수프에 대한 이전 소개를 바탕으로합니다. HTML 구조를 수정하기위한 효율적인 검색 방법과 기술을 탐색하겠습니다. 일반적인 DOM 검색 방법 중 하나는 EX입니다

See all articles

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

SublimeText3 Linux 새 버전

SublimeText3 Linux 새 버전

SublimeText3 Linux 최신 버전

MinGW - Windows용 미니멀리스트 GNU

MinGW - Windows용 미니멀리스트 GNU

이 프로젝트는 osdn.net/projects/mingw로 마이그레이션되는 중입니다. 계속해서 그곳에서 우리를 팔로우할 수 있습니다. MinGW: GCC(GNU Compiler Collection)의 기본 Windows 포트로, 기본 Windows 애플리케이션을 구축하기 위한 무료 배포 가능 가져오기 라이브러리 및 헤더 파일로 C99 기능을 지원하는 MSVC 런타임에 대한 확장이 포함되어 있습니다. 모든 MinGW 소프트웨어는 64비트 Windows 플랫폼에서 실행될 수 있습니다.

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse용 SAP NetWeaver 서버 어댑터

Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

VSCode Windows 64비트 다운로드

VSCode Windows 64비트 다운로드

Microsoft에서 출시한 강력한 무료 IDE 편집기

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기