찾다
백엔드 개발파이썬 튜토리얼데이터 분석을 위한 Python 학습 경로

데이터 분석을 위한 Python 학습 경로

Jun 23, 2017 pm 04:25 PM
analysisdataforpython공부하다메모

소개 장에서는 MovieLens 1M 데이터 세트를 처리하는 예를 소개합니다. 이 책에서는 데이터 세트가 GroupLens Research()에서 제공된다고 소개합니다. 이 주소는 MovieLens 웹사이트에서 다양한 평가 데이터 세트를 제공하며 필요한 해당 MovieLens 1M 데이터 세트도 다운로드할 수 있습니다. . 안에.

다운로드하고 압축을 푼 폴더는 다음과 같습니다.

이 세 가지 dat 테이블이 예제에 사용됩니다. 제가 읽은 "데이터 분석을 위한 파이썬"의 중국어 버전(PDF)은 2014년 초판입니다. 안에 있는 예제는 모두 Python 2.7과 pandas 0.8.2를 기반으로 작성되었으며 저는 Python 3.5.2와 pandas 0.8을 설치했습니다. 2. pandas 0.20.2의 일부 기능과 메소드는 새 버전에서 변경된 매개변수이고 일부는 새 버전에서 더 이상 사용되지 않습니다. , 몇 가지 오류와 경고가 발생합니다. MovieLens 1M 데이터 세트 코드를 테스트할 때 나와 동일한 구성 환경에서 다음과 같은 문제에 직면하게 됩니다.

  • dat 데이터를 pandas DataFrame 개체로 읽을 때 책에 제공된 코드는 다음과 같습니다.

    users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)
    
    rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
    ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames)
    
    mnames = ['movie_id', 'title', 'genres']
    movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)

    직접 실행하면 경고:

    F:/python/HelloWorld/DataAnalysisByPython-1.py:4: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
      users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames)
    F:/python/HelloWorld/DataAnalysisByPython-1.py:7: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
      ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames)
    F:/python/HelloWorld/DataAnalysisByPython-1.py:10: ParserWarning: Falling back to the 'python' engine because the 'c' engine does not support regex separators (separators > 1 char and different from '\s+' are interpreted as regex); you can avoid this warning by specifying engine='python'.
      movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames)

    할 수도 있지만 실행되지만 완벽한 강박 장애로서 나는 여전히 이 경고를 해결하고 싶습니다. 이 경고는 'C' 엔진이 이를 지원하지 않기 때문에 'Python' 엔진으로만 대체할 수 있으며 pandas.read_table 메소드에 어떤 구문 분석 엔진을 설정하는 데 사용되는 엔진 매개변수가 있는지를 의미합니다. 'C'와 'Python'을 포함하여 사용하려면 이 두 가지 옵션이 필요합니다. 'C' 엔진에서는 지원하지 않기 때문에 엔진을 'Python'으로 설정하기만 하면 됩니다.

    users = pd.read_table('ml-1m/users.dat', sep='::', header=None, names=unames, engine = 'python')
    
    rnames = ['user_id', 'movie_id', 'rating', 'timestamp']
    ratings = pd.read_table('ml-1m/ratings.dat', sep='::', header=None, names=rnames, engine = 'python')
    
    mnames = ['movie_id', 'title', 'genres']
    movies = pd.read_table('ml-1m/movies.dat', sep='::', header=None, names=mnames, engine = 'python')

  • Pivot_table 메소드를 사용하여 집계된 데이터에 대해 각 영화의 성별 평균 점수를 계산합니다. 책에 제공된 코드는 다음과 같습니다. , 다음 코드를 실행할 수 없습니다.

    mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean')

    TypeError는 여기의 'rows' 매개변수가 메서드에서 사용할 수 있는 키워드 매개변수가 아님을 나타냅니다. 무슨 일이 일어나고 있나요? pandas API 사용 문서()를 확인하기 위해 공식 웹사이트에 갔는데, 버전 0.20.2에서

    pandas.pivot_table의 키워드 매개변수가 변경되었기 때문이라는 것을 알았습니다. 동일한 효과를 얻으려면 행을 인덱스로 바꾸면 됩니다. . 동시에 cols 매개변수가 없으며 대신 열을 사용해야 합니다.

    Traceback (most recent call last):
      File "F:/python/HelloWorld/DataAnalysisByPython-1.py", line 19, in <module>mean_ratings = data.pivot_table('rating', rows='title', cols='gender', aggfunc='mean')
    TypeError: pivot_table() got an unexpected keyword argument 'rows'</module>
    여성 관객이 좋아하는 영화를 이해하기 위해 DataFrame 메서드를 사용하여 F열을 내림차순으로 정렬합니다. 책에 나오는 샘플 코드는

mean_ratings = data.pivot_table('rating', index='title', columns='gender', aggfunc='mean')
  • It입니다. 여기에만 표시됩니다. 경고는 프로그램을 방해하지 않습니다:

    top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)

    이는 정렬을 위한 sort_index 방법이 향후 언어나 라이브러리에서 변경될 수 있음을 의미하므로 대신 sort_values를 사용하는 것이 좋습니다. API 사용 설명서에서 pandas.DataFrame.sort_index에 대한 설명은 "레이블별로 개체 정렬(축을 따라)"이고, pandas.DataFrame.sort_values에 대한 설명은 "양쪽 축을 따라 값을 기준으로 정렬"입니다. 둘 다 동일한 효과를 얻으려면 이를 sort_values로 바꾸겠습니다. sort_index는 다음 "점수 차이 계산

    "에서도 사용되며, sort_values로 대체될 수도 있습니다.

    F:/python/HelloWorld/DataAnalysisByPython-1.py:32: FutureWarning: by argument to sort_index is deprecated, pls use .sort_values(by=...)
      top_female_ratings = mean_ratings.sort_index(by='F', ascending=False)
    마지막 오류는 여전히 정렬과 관련이 있습니다. "

    Calculate Rating Divergence

    "에서 점수 데이터의 표준편차를 계산한 후 필터링된 값을 기준으로 시리즈가 내림차순으로 정렬됩니다. 책의 코드는
  • top_female_ratings = mean_ratings.sort_values(by='F', ascending=False)
    입니다.

    这里的错误是:

    Traceback (most recent call last):
      File "F:/python/HelloWorld/DataAnalysisByPython-1.py", line 47, in <module>print(rating_std_by_title.order(ascending=False)[:10])
      File "E:\Program Files\Python35\lib\site-packages\pandas\core\generic.py", line 2970, in __getattr__return object.__getattribute__(self, name)
    AttributeError: 'Series' object has no attribute 'order'</module>

    居然已经没有这个order的方法了,只好去API文档中找替代的方法用。有两个,sort_index和sort_values,这和DataFrame中的方法一样,为了保险起见,我选择使用sort_values:

    print(rating_std_by_title.sort_values(ascending=False)[:10]

    得到的结果和数据展示的结果一样,可以放心使用。

  • 第三方库不同版本间的差异还是挺明显的,建议是使用最新的版本,在使用时配合官网网站上的API使用文档,轻松解决各类问题~

    위 내용은 데이터 분석을 위한 Python 학습 경로의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

    성명
    본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
    어레이는 파이썬으로 과학 컴퓨팅에 어떻게 사용됩니까?어레이는 파이썬으로 과학 컴퓨팅에 어떻게 사용됩니까?Apr 25, 2025 am 12:28 AM

    Arraysinpython, 특히 비밀 복구를위한 ArecrucialInscientificcomputing.1) theaRearedFornumericalOperations, DataAnalysis 및 MachinELearning.2) Numpy'SimplementationIncensuressuressurations thanpythonlists.3) arraysenablequick

    같은 시스템에서 다른 파이썬 버전을 어떻게 처리합니까?같은 시스템에서 다른 파이썬 버전을 어떻게 처리합니까?Apr 25, 2025 am 12:24 AM

    Pyenv, Venv 및 Anaconda를 사용하여 다양한 Python 버전을 관리 할 수 ​​있습니다. 1) PYENV를 사용하여 여러 Python 버전을 관리합니다. Pyenv를 설치하고 글로벌 및 로컬 버전을 설정하십시오. 2) VENV를 사용하여 프로젝트 종속성을 분리하기 위해 가상 환경을 만듭니다. 3) Anaconda를 사용하여 데이터 과학 프로젝트에서 Python 버전을 관리하십시오. 4) 시스템 수준의 작업을 위해 시스템 파이썬을 유지하십시오. 이러한 도구와 전략을 통해 다양한 버전의 Python을 효과적으로 관리하여 프로젝트의 원활한 실행을 보장 할 수 있습니다.

    표준 파이썬 어레이를 통해 Numpy Array를 사용하면 몇 가지 장점은 무엇입니까?표준 파이썬 어레이를 통해 Numpy Array를 사용하면 몇 가지 장점은 무엇입니까?Apr 25, 2025 am 12:21 AM

    Numpyarrayshaveseveraladvantagesstandardpythonarrays : 1) thearemuchfasterduetoc 기반 간증, 2) thearemorememory-refficient, 특히 withlargedatasets 및 3) wepferoptizedformationsformationstaticaloperations, 만들기, 만들기

    어레이의 균질 한 특성은 성능에 어떤 영향을 미칩니 까?어레이의 균질 한 특성은 성능에 어떤 영향을 미칩니 까?Apr 25, 2025 am 12:13 AM

    어레이의 균질성이 성능에 미치는 영향은 이중입니다. 1) 균질성은 컴파일러가 메모리 액세스를 최적화하고 성능을 향상시킬 수 있습니다. 2) 그러나 유형 다양성을 제한하여 비 효율성으로 이어질 수 있습니다. 요컨대, 올바른 데이터 구조를 선택하는 것이 중요합니다.

    실행 파이썬 스크립트를 작성하기위한 모범 사례는 무엇입니까?실행 파이썬 스크립트를 작성하기위한 모범 사례는 무엇입니까?Apr 25, 2025 am 12:11 AM

    tocraftexecutablepythonscripts, 다음과 같은 비스트 프랙티스를 따르십시오 : 1) 1) addashebangline (#!/usr/bin/envpython3) tomakethescriptexecutable.2) setpermissionswithchmod xyour_script.py.3) organtionewithlarstringanduseifname == "__"

    Numpy 배열은 배열 모듈을 사용하여 생성 된 배열과 어떻게 다릅니 까?Numpy 배열은 배열 모듈을 사용하여 생성 된 배열과 어떻게 다릅니 까?Apr 24, 2025 pm 03:53 PM

    numpyarraysarebetterfornumericaloperations 및 multi-dimensionaldata, mumemer-efficientArrays

    Numpy Array의 사용은 Python에서 어레이 모듈 어레이를 사용하는 것과 어떻게 비교됩니까?Numpy Array의 사용은 Python에서 어레이 모듈 어레이를 사용하는 것과 어떻게 비교됩니까?Apr 24, 2025 pm 03:49 PM

    numpyarraysarebetterforheavynumericalcomputing, whilearraymoduleisiMoresuily-sportainedprojectswithsimpledatatypes.1) numpyarraysofferversatively 및 formanceforgedatasets 및 complexoperations.2) Thearraymoduleisweighit 및 ep

    CTYPES 모듈은 파이썬의 어레이와 어떤 관련이 있습니까?CTYPES 모듈은 파이썬의 어레이와 어떤 관련이 있습니까?Apr 24, 2025 pm 03:45 PM

    ctypesallowscreatingandmanipulatingC-stylearraysinPython.1)UsectypestointerfacewithClibrariesforperformance.2)CreateC-stylearraysfornumericalcomputations.3)PassarraystoCfunctionsforefficientoperations.However,becautiousofmemorymanagement,performanceo

    See all articles

    핫 AI 도구

    Undresser.AI Undress

    Undresser.AI Undress

    사실적인 누드 사진을 만들기 위한 AI 기반 앱

    AI Clothes Remover

    AI Clothes Remover

    사진에서 옷을 제거하는 온라인 AI 도구입니다.

    Undress AI Tool

    Undress AI Tool

    무료로 이미지를 벗다

    Clothoff.io

    Clothoff.io

    AI 옷 제거제

    Video Face Swap

    Video Face Swap

    완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

    뜨거운 도구

    SublimeText3 Mac 버전

    SublimeText3 Mac 버전

    신 수준의 코드 편집 소프트웨어(SublimeText3)

    mPDF

    mPDF

    mPDF는 UTF-8로 인코딩된 HTML에서 PDF 파일을 생성할 수 있는 PHP 라이브러리입니다. 원저자인 Ian Back은 자신의 웹 사이트에서 "즉시" PDF 파일을 출력하고 다양한 언어를 처리하기 위해 mPDF를 작성했습니다. HTML2FPDF와 같은 원본 스크립트보다 유니코드 글꼴을 사용할 때 속도가 느리고 더 큰 파일을 생성하지만 CSS 스타일 등을 지원하고 많은 개선 사항이 있습니다. RTL(아랍어, 히브리어), CJK(중국어, 일본어, 한국어)를 포함한 거의 모든 언어를 지원합니다. 중첩된 블록 수준 요소(예: P, DIV)를 지원합니다.

    Eclipse용 SAP NetWeaver 서버 어댑터

    Eclipse용 SAP NetWeaver 서버 어댑터

    Eclipse를 SAP NetWeaver 애플리케이션 서버와 통합합니다.

    SublimeText3 Linux 새 버전

    SublimeText3 Linux 새 버전

    SublimeText3 Linux 최신 버전

    에디트플러스 중국어 크랙 버전

    에디트플러스 중국어 크랙 버전

    작은 크기, 구문 강조, 코드 프롬프트 기능을 지원하지 않음