>기술 주변기기 >일체 포함 >R에서 간단한 선형 회귀 방법을 구현하고 그 개념을 설명합니다.

R에서 간단한 선형 회귀 방법을 구현하고 그 개념을 설명합니다.

WBOY
WBOY앞으로
2024-01-22 23:09:111170검색

단순 선형 회귀는 두 연속 변수 간의 관계를 연구하는 데 사용되는 통계 방법입니다. 그 중 하나의 변수를 독립변수(x)라고 하고, 다른 변수를 종속변수(y)라고 합니다. 두 변수 사이에 선형관계가 있다고 가정하고, 독립변수의 특성을 바탕으로 종속변수의 반응값(y)을 정확하게 예측하는 선형함수를 찾아보고자 한다. 직선을 맞추면 예측 결과를 얻을 수 있습니다. 이 예측 모델을 사용하면 독립 변수가 변경됨에 따라 종속 변수가 어떻게 변경되는지 이해하고 예측할 수 있습니다.

이 개념을 이해하기 위해 각 독립변수(경력 연수)에 해당하는 종속변수(급여)의 값이 포함된 급여 데이터 세트를 사용할 수 있습니다.

급여 데이터세트

연봉 및 경력

1.1 39343.00

1.3 46205.00

1.5 37731.00

2.0 43525.00

2.2 398 91.0 0

2.9 56642.00

3.0 60150.00

3.2 54445.00

3.2 64445.00

3.7 57189.00

일반적인 목적으로 다음을 정의합니다.

x를 특징 벡터로, 즉 x=[x_1,x_2,...,x_n],

y를 응답 벡터로, 즉 y=[y_1,y_2, .. ..,y_n]

n개의 관측치에 대해(위 예에서는 n=10).

주어진 데이터 세트의 산점도

简单线性回归概念 R代码实现简单线性回归

이제 우리는 임의의 y 값 또는 임의의 x 값에 대한 반응을 예측할 수 있는 위의 산점도에 맞는 선을 찾아야 합니다.

가장 적합한 선을 회귀선이라고 합니다.

다음 R 코드는 단순 선형 회귀를 구현하는 데 사용됩니다.

dataset=read.csv('salary.csv')
install.packages('caTools')
library(caTools)
split=sample.split(dataset$Salary,SplitRatio=0.7)
trainingset=subset(dataset,split==TRUE)
testset=subset(dataset,split==FALSE)
lm.r=lm(formula=Salary~YearsExperience,
data=trainingset)
coef(lm.r)
ypred=predict(lm.r,newdata=testset)
install.packages("ggplot2")
library(ggplot2)
ggplot()+geom_point(aes(x=trainingset$YearsExperience,
y=trainingset$Salary),colour='red')+
geom_line(aes(x=trainingset$YearsExperience,
y=predict(lm.r,newdata=trainingset)),colour='blue')+
ggtitle('Salary vs Experience(Training set)')+
xlab('Years of experience')+
ylab('Salary')
ggplot()+
geom_point(aes(x=testset$YearsExperience,y=testset$Salary),
colour='red')+
geom_line(aes(x=trainingset$YearsExperience,
y=predict(lm.r,newdata=trainingset)),
colour='blue')+
ggtitle('Salary vs Experience(Test set)')+
xlab('Years of experience')+
ylab('Salary')

훈련 세트 결과 시각화

简单线性回归概念 R代码实现简单线性回归

위 내용은 R에서 간단한 선형 회귀 방법을 구현하고 그 개념을 설명합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

성명:
이 기사는 163.com에서 복제됩니다. 침해가 있는 경우 admin@php.cn으로 문의하시기 바랍니다. 삭제