이 문서의 예에서는 Python에서 의사결정 트리 알고리즘을 구현하는 방법을 설명합니다. 참고할 수 있도록 모든 사람과 공유하세요. 세부 사항은 다음과 같습니다.
from sklearn.feature_extraction import DictVectorizer import csv from sklearn import tree from sklearn import preprocessing from sklearn.externals.six import StringIO # 读取csv数据,并将数据和特征值存入字典和类标签列表 allElectronicsData = open(r'AllElectronics.csv', 'rt') reader = csv.reader(allElectronicsData) headers = next(reader) # 原代码中用的是: # headers = reader.next() # 这句代码应该是之前的版本用的,现在已经更新了没有next这个函数 # print(headers) featureList = [] labelList = [] for row in reader: labelList.append(row[len(row) - 1]) rowDict = {} for i in range(1, len(row) - 1): rowDict[headers[i]] = row[i] featureList.append(rowDict) # print(featureList) # 将特征值矢量化,代表将各种参数进行矢量化 vec = DictVectorizer() dummyX = vec.fit_transform(featureList).toarray() # print("dummyX: " + str(dummyX)) # print(vec.get_feature_names()) # print("labelList: " + str(labelList)) # 将类标签列表矢量化,就是最后的结果 lb = preprocessing.LabelBinarizer() dummyY = lb.fit_transform(labelList) # print("dummyY: " + str(dummyY)) # 使用决策树进行分类 clf = tree.DecisionTreeClassifier() # clf = tree.DecisionTreeClassifier(criterion = 'entropy') clf = clf.fit(dummyX, dummyY) # print("clf: " + str(clf)) # 将模型进行可视化 with open("allElectrionicInformationOri.dot", 'w') as f: f = tree.export_graphviz(clf, feature_names = vec.get_feature_names(), out_file = f) oneRowX = dummyX[0, :] # print("oneRowX: " + str(oneRowX)) # 接下来改变一些数据进行预测 newRowX = oneRowX newRowX[0] = 0 newRowX[1] = 1 print("newRowX: " + str(newRowX)) predictedY = clf.predict(newRowX.reshape(1, -1)) # 预测的结果需要加上后面的reshape(1, -1),不然会 # 报错: # ValueError: Expected 2D array, got 1D array instead: # array=[0. 1. 1. 0. 1. 1. 0. 0. 1. 0.]. # Reshape your data either using array.reshape(-1, 1) # if your data has a single feature or array.reshape(1, -1) if it contains a single sample. print("预测的结果为: " + str(predictedY))
사람들의 구매력을 분류하여 프로젝트를 분류하고 최종 과정에서 결과에 대해 특정 예측을 할 수도 있습니다. 위에 표시된 코드에는 몇 가지 장점과 단점이 있습니다.
결정 트리 알고리즘의 장점:
1) 간단하고 직관적이며 생성된 결정 트리는 매우 직관적입니다.
2) 기본적으로 전처리가 필요 없고, 사전에 정규화할 필요도 없으며, 누락된 값을 처리할 필요도 없습니다.
3) 의사결정 트리 예측을 사용하는 비용은O(log2 m) O(log2m). m은 샘플 수입니다.
4) 이산값과 연속값을 모두 처리할 수 있습니다. 많은 알고리즘은 이산 값이나 연속 값에만 중점을 둡니다.
5) 다차원 출력의 분류 문제를 처리할 수 있습니다.
6) 신경망과 같은 블랙박스 분류 모델과 비교하여 의사결정 트리를 논리적으로 잘 설명할 수 있습니다.
7) 교차 검증 가지치기를 사용하여 일반화 능력을 향상시키는 모델을 선택할 수 있습니다.
8) 이상점에 대한 내결함성이 우수하고 견고성이 높습니다.
의사결정 트리 알고리즘의 단점을 살펴보겠습니다.
1) 의사결정 트리 알고리즘은 과적합되기 매우 쉽고 일반화 능력이 약합니다. 이는 노드의 최소 샘플 수를 설정하고 의사결정 트리의 깊이를 제한하여 개선할 수 있습니다.
2) 결정 트리는 표본의 작은 변화로 인해 트리 구조에 급격한 변화를 가져옵니다. 이는 앙상블 학습과 같은 방법을 통해 해결할 수 있습니다.
3) 최적의 의사결정 트리를 찾는 것은 NP-hard 문제입니다. 우리는 일반적으로 휴리스틱 방법을 사용하므로 쉽게 지역적 최적성에 빠질 수 있습니다. 이는 앙상블 학습과 같은 방법을 통해 개선될 수 있습니다.
4) 의사결정 트리가 XOR과 같은 좀 더 복잡한 관계를 학습하는 것은 어렵습니다. 일반적으로 이 관계는 신경망 분류 방법을 사용하여 해결할 수 있습니다.
5) 특정 기능의 표본 비율이 너무 크면 생성된 의사결정 트리가 이러한 기능에 편향되는 경향이 있습니다. 이는 샘플 가중치를 조정하여 개선할 수 있습니다.
관련 권장 사항:
상위 10개 데이터 마이닝 알고리즘의 의사결정 트리에 대한 자세한 설명
위 내용은 Python은 의사결정 트리 알고리즘을 구현합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!