전체 글 75

의과대학생이 정신건강에 미치는 영향

1. Planning-  이해하기의과대학생들의 우울증이 심각한 상태학교를 이탈하는 경우가 다수 발생함 환자들의 대면서비스에 대한 불만이 다수 발생-  프로젝트 개요 울증에 영향을 주는 요인과 대체 방안 찾기요인을 찾아 의과대학생들의 이탈율을 방지하고자 함- 데이터 이해 스위스 의과대학 학생들의 empathy(공감), mental health(정신 건강), burnout(탈진) 데이터를 측정한 내용Maslach Burnout Inventory (MBI)는 직업적인 환경에서의 감정적, 정신적, 물리적으로 과도한 스트레 스와 업무스트레스로 인한 "소진" 상태를 평가하기 위한 표준화된 도구임(캐글에서 Medical Student Mental Health를 가공함) 2. 데이터 전처리(1) Data 불러오기imp..

데이터이야기 2024.10.16

다중선형회귀모형과 해석하기

1. 다중선형회귀모형이란다중선형회귀(multiple linear regression)은  종속(반응)변수에 대하여 2개 이상의 독립(설명)변수가 얼마나 영향을 미치는가를 확인하는 모형입니다.   다중선형회귀에서 반드시 고려해야 되는 사항이 다중공선성(multicollinearity)이다. 다중공선성이란 독립변수들간의 강한 상관관계가 존재하여 회귀 계수의 분산을 크게 하기 때문에 회귀분석시 추정회귀계수를 신뢰할 수 없는 문제가 발생하는 것입니다.즉, 독립변수 A와 독립변수 B는 종속변수에서 각각 독립적으로 영향을 주어야 하는데, 독립변수의 값이 증가함에 따라 독립변수 간의 상호관련성이 높아져 독립변수의 개별적인 영향보다는 독립변수간의 상관관계에 의해 발생되는 영향입니다. 다중공선성을 확인하기 위한 지표는 ..

scikit-learn 패키지를 활용한 단순회귀모형과 중회귀모형

1, 단순선형회귀모형  scikit-learn 패키지에서 학습을 위한 데이터는 (n,c) 형태의 array 데이터 입니다. n은 데이터 개수이고, c는 feature(컬럼)의 개수를 의미합니다. n에 -1로 지정하면 크기를 자동으로 계산하도록 합니다.       예를 들어, x.reshape(-1, 1) 코드는 차원 크기를 자동으로 계산하고, 1은 1차원 배열로 구성된다는 의미 입니다. 선형회귀모형은 scikit-learn패키지의 LinearRegression 클래스를 이용해 모델을 설정할 수 있습니다. LinearRegression() 생성자를 이용하여 새로운 선형회귀모델 객체를 만들고, fit()메소를 이용하여 선형회귀모형을 설정합니다. #데이터 x = [30, 20, 50, 40, 10]y = [1..

회귀분석의 원리와 단순선형회귀모형

1. 회귀분석(regression)은 데이터 간의 선형 인과관계를 분석하고 예측하는 데 사용되는 기법입니다. 설명변수와 반응변수의 관계를 구체적인 함수로 나타내고, 설명변수의 값으로부터 반응변수의 값을 예측하는 일련의 과정입니다. 회귀분석과 관련된 용어반응변수(response variable) : 주된 관심사항으로 예측하려는 연속형 변수설명변수(explanatory variable ) : 반응변수를 예측하는데 사용되는 변수회귀모형(regression model) : 설명변수와 반응변수의 관계를 나타내는 직성식회귀계수(regression coefficient) : 설명변수와 반응변수의 관계정도를 나타내는 수치로서 회귀모형의 절편 및 기울기 2. 단순회귀모형모형  단순회귀모형의 간단한 예를 살펴보면, 광고료..

협업 필터링 추천 시스템(Collaborative Filtering : CF)

1. 협업 필터링 추천 시스템 협업 필터링 추천시스템은 사용자들의 취향 정보를 기반으로 개별 사용자가 선호라 것 같은 아이템을 예측해서 추천해주는 기술입니다. 이는 사용자의 개인정보나 아이템 정보가 없어도 추천할 수 있습니다. 협업필터링은 최근접 이웃(KNN : K-Nearest Neighbor)과 잠재요인(Latent Factor) 방식이 있습니다. 최근접 이웃(KNN)에는 사용자 기반 CF와 아이템 기반 CF로 구분됩니다. 사용자 기반 협업 필터링은 사용자의 구매 패턴과 유사한 사용자를 찾아서 추천해주는 것이고, 아이템 기반 협업 필터링은 사용자들이 부여한 평점들의 분포가 유사하게 나타난 아이텐을 찾아 추천해주는 것입니다.  2. 코사인 유사도(Cosine Similarity)코사인 유사도는 벡터간의..

함수와 모듈

1. 함수의 개념복잡한 문제를 한번에 프로그래밍하려면 프로그램의 길이가 길어지고 코드의 가독성이 떨어집니다. 그래서 작고 독립적인 기능으로 나누어 부프로그램을 작성하면 훨씬 생산성이 높아지고 유지보수가 용이해집니다.주프로그램(main program)은 전체를 총괄하는 프로그램이고, 주 프로그램은 간결하게 작성하는 것이 좋습니다. 부프로그램(sub program)은 프로시저(procedure), 함수(function)라고도 합니다. 아래의 그림을 보면 주프로그램에서 원하는 sub program을 호출하면, 함수가 수행되고 함수가 명령문이 끝나면 다시 주 프로그램으로 되돌아 갑니다. 함수는 특정한 기능을 하는 명령문의 집합으로 내장함수(built-in function)과 사용자 정의함수(user define..

문자열 기본과 함수

1. 문자열 개념   문자열(String)은 문자(Character)들의 묶음이라고 합니다. 'l', 'o', 'v', 'e'와 같은 것을 문자라고 할 수 있지만 "love"와 같이 문자들이 묶여있는 것을 문자열이라고 할 수 있습니다. 파이썬에서 문자열은 단일 인용부호(')나 이중 인용부호(")로 감싸주어 표현합니다.   파이썬에서는 문자열에 관련된 연산자는 +, * 연산자가 있는데, 연산자는 문자열을 서로 결합하는 기능이며, * 연산자는 문자열을 반복하는 기능입니다.  2. 문자열의 indexing과 slicing파이썬에서는 문자열에서 원하는 위치에 있는 문자를 마음대로 꺼낼 수 있는데 이를 인덱싱(Indexing)이라 하는데, '변수[위치]'로 지정합니다. 대괄호 안에 들어가는 수를 인덱스라고도 하며..

딕셕너리 자료구조

1. 딕셔너리(dictionary) 자료구조 란딕셔너리는 딕셔너리는 중괄호({ })에 key와 value를 묶어서 하나의 항목으로 저장되고, key는 어떤 유형이든 상관없지만 불변객체이고 유일해야 합니다.  콜론(:) 기호로 키와 값을 연결하고, 각 항목사이에는 콤마(,)를 사용해서 구분합니다.  딕셔너리명 = {key1 : value1, key2 : value2, .... key n: vlaue n} 딕셔너리 생성 : 아래와 같은 student 딕셔너리를 생성하려고 합니다.keyvalue학번202401이름김수현학과경영정보   (1) 딕셔너리 생성(2) 딕셔너리 사용법 - 딕셔너리 읽기는 'key'로 값을 접근하는 방법과 get() 함수를 사용하는 방법이 있습니다. 즉 딕셔너리명[key]과 딕셔너리명. ..

튜플 자료구조

1. 튜플(tuple) 튜플은 리스트처럼 여러개의 데이터를 저장할 수 있는 자료형이지만, 수정을 할 수 없으며, 읽기만 가능하기 때문에 검색작업에 유용하기 사용됩니다. 그리고 리스트는 대괄호 [], 튜플은 소괄호()를 사용합니다.튜플 생성하기튜플 사용하기 : 튜플의 검색, 인덱싱, 슬라이싱은 리스트와 사용방법이 동일합니다. 튜플 사용하기 :  for문을 사용하영 튜플 항목을 하나씩 출력할 수 있습니다.튜플은 읽기 전용이기 때문에 추가, 수정, 삭제 등을 실행할 수 없습니다. 2. 튜플 활용[실습1]회원가입 여부를 확인하는 프로그램을 작성하라. [실습2] 튜플 항목 중에 홀수만 모두 출력하는 프로그램을 작성하라

리스트 데이터 구조

1. 리스트의 개요 리스트의 필요성 학생들의 성적을 처리하는 프로그램을 작성한다고 하였을 때, 학생 한 명의 점수를 저장할 때는 변수 하나를 생성하면 됩니다. 하지만, 100명의 학생의 점수를 저장하기 위해서는 100개의 변수가 필요합니다. 변수 이름도 다르게 만들어야 하므로 많은 데이터를 처리하기에는 너무 비효율적 입니다.그래서 많은 데이터를 처리할 때는 데이터를 묶어서 처리하는 것 효율적이므로 이러한 것을 컬렉션(Collection)이라고 하고, 파이썬에서는 리스트(list), 튜플(tuple), 딕셔너리(dictionary), 셑(set) 등이 있습니다. 리스트의 구조순서가 있는 수정가능한 데이터의 묶음입니다. 리스트에 저장되는 각각의 데이터를 항목(item) 또는 원소(element)라고 하고, ..

728x90