데이터분석/회귀분석 3

다중선형회귀모형과 해석하기

1. 다중선형회귀모형이란다중선형회귀(multiple linear regression)은  종속(반응)변수에 대하여 2개 이상의 독립(설명)변수가 얼마나 영향을 미치는가를 확인하는 모형입니다.   다중선형회귀에서 반드시 고려해야 되는 사항이 다중공선성(multicollinearity)이다. 다중공선성이란 독립변수들간의 강한 상관관계가 존재하여 회귀 계수의 분산을 크게 하기 때문에 회귀분석시 추정회귀계수를 신뢰할 수 없는 문제가 발생하는 것입니다.즉, 독립변수 A와 독립변수 B는 종속변수에서 각각 독립적으로 영향을 주어야 하는데, 독립변수의 값이 증가함에 따라 독립변수 간의 상호관련성이 높아져 독립변수의 개별적인 영향보다는 독립변수간의 상관관계에 의해 발생되는 영향입니다. 다중공선성을 확인하기 위한 지표는 ..

scikit-learn 패키지를 활용한 단순회귀모형과 중회귀모형

1, 단순선형회귀모형  scikit-learn 패키지에서 학습을 위한 데이터는 (n,c) 형태의 array 데이터 입니다. n은 데이터 개수이고, c는 feature(컬럼)의 개수를 의미합니다. n에 -1로 지정하면 크기를 자동으로 계산하도록 합니다.       예를 들어, x.reshape(-1, 1) 코드는 차원 크기를 자동으로 계산하고, 1은 1차원 배열로 구성된다는 의미 입니다. 선형회귀모형은 scikit-learn패키지의 LinearRegression 클래스를 이용해 모델을 설정할 수 있습니다. LinearRegression() 생성자를 이용하여 새로운 선형회귀모델 객체를 만들고, fit()메소를 이용하여 선형회귀모형을 설정합니다. #데이터 x = [30, 20, 50, 40, 10]y = [1..

회귀분석의 원리와 단순선형회귀모형

1. 회귀분석(regression)은 데이터 간의 선형 인과관계를 분석하고 예측하는 데 사용되는 기법입니다. 설명변수와 반응변수의 관계를 구체적인 함수로 나타내고, 설명변수의 값으로부터 반응변수의 값을 예측하는 일련의 과정입니다. 회귀분석과 관련된 용어반응변수(response variable) : 주된 관심사항으로 예측하려는 연속형 변수설명변수(explanatory variable ) : 반응변수를 예측하는데 사용되는 변수회귀모형(regression model) : 설명변수와 반응변수의 관계를 나타내는 직성식회귀계수(regression coefficient) : 설명변수와 반응변수의 관계정도를 나타내는 수치로서 회귀모형의 절편 및 기울기 2. 단순회귀모형모형  단순회귀모형의 간단한 예를 살펴보면, 광고료..

728x90