단순 선형 회귀는 두 연속 변수 간의 관계를 연구하는 데 사용되는 통계 방법입니다. 그 중 하나의 변수를 독립변수(x)라고 하고, 다른 변수를 종속변수(y)라고 합니다. 두 변수 사이에 선형관계가 있다고 가정하고, 독립변수의 특성을 바탕으로 종속변수의 반응값(y)을 정확하게 예측하는 선형함수를 찾아보고자 한다. 직선을 맞추면 예측 결과를 얻을 수 있습니다. 이 예측 모델을 사용하면 독립 변수가 변경됨에 따라 종속 변수가 어떻게 변경되는지 이해하고 예측할 수 있습니다.
이 개념을 이해하기 위해 각 독립변수(경력 연수)에 해당하는 종속변수(급여)의 값이 포함된 급여 데이터 세트를 사용할 수 있습니다.
연봉 및 경력
1.1 39343.00
1.3 46205.00
1.5 37731.00
2.0 43525.00
2.2 398 91.0 0
2.9 56642.00
3.0 60150.00
3.2 54445.00
3.2 64445.00
3.7 57189.00
일반적인 목적으로 다음을 정의합니다.
x를 특징 벡터로, 즉 x=[x_1,x_2,...,x_n],
y를 응답 벡터로, 즉 y=[y_1,y_2, .. ..,y_n]
n개의 관측치에 대해(위 예에서는 n=10).
이제 우리는 임의의 y 값 또는 임의의 x 값에 대한 반응을 예측할 수 있는 위의 산점도에 맞는 선을 찾아야 합니다.
가장 적합한 선을 회귀선이라고 합니다.
dataset=read.csv('salary.csv') install.packages('caTools') library(caTools) split=sample.split(dataset$Salary,SplitRatio=0.7) trainingset=subset(dataset,split==TRUE) testset=subset(dataset,split==FALSE) lm.r=lm(formula=Salary~YearsExperience, data=trainingset) coef(lm.r) ypred=predict(lm.r,newdata=testset) install.packages("ggplot2") library(ggplot2) ggplot()+geom_point(aes(x=trainingset$YearsExperience, y=trainingset$Salary),colour='red')+ geom_line(aes(x=trainingset$YearsExperience, y=predict(lm.r,newdata=trainingset)),colour='blue')+ ggtitle('Salary vs Experience(Training set)')+ xlab('Years of experience')+ ylab('Salary') ggplot()+ geom_point(aes(x=testset$YearsExperience,y=testset$Salary), colour='red')+ geom_line(aes(x=trainingset$YearsExperience, y=predict(lm.r,newdata=trainingset)), colour='blue')+ ggtitle('Salary vs Experience(Test set)')+ xlab('Years of experience')+ ylab('Salary')
위 내용은 R에서 간단한 선형 회귀 방법을 구현하고 그 개념을 설명합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!