전체 글
-
로지스틱회귀분석 (R)R 2019. 9. 10. 12:47
이전까지는 주로 선형회귀분석방법에 대해 알아보았다. 선형회귀분석법은 다른 분석방법을 배우기 위한 기본과정이기 때문에 많은 시간을 할애해서 배울 필요성이 있기는 하지만, 실제로 논문작성에서 그리 많이 사용되는 방법은 아니다. 하지만 이번에 다룰 로지스틱회귀분석법은 극단적으로 말하자면 관찰연구의 대부분을 차지하는 방법이다. 아마 대부분의 임상의사는 로지스틱회귀분석+생존분석으로 평생 욹어 먹을 가능성이 크다. 그런 만큼 세심히 알아보자. 1. 로지스틱회귀분석의 기본원리 원래 학문적 배경이 수학이나 통계 쪽이 아니라서 숫자 나오면 두통이 발생하기 시작한다. 하지만 그래도 이해를 위해 어쩔 수 없이 알아야 하는 과정이 존재한다. 머리 덜 아프게 그리스식 알파벳은 사용 않고 최대한 쉽게 설명해 보려 한다. 로지스틱..
-
다변수분석법 (SPSS)SPSS 2019. 9. 7. 03:14
탐색적 자료 분석이 끝난 후 본 분석인 다변수 분석을 시행해야 한다. 탐색적 자료 분석을 성실히 시행했으면 다변수 분석 결과는 이미 머릿속에 대충 그려질 것이다. 그 내용을 논문 양식에 맞춰서 제시하는 것이 이번 포스트의 중심 내용이다. 1. 다변수 분석의 필요성 사실 예전에 개인용 컴퓨터가 일반화되지 않았을 때는 통계작업을 전부 수기로 진행했었다고 한다. 그러니 다변수 분석 같은 것은 상상도 하기 힘들고 전문 수학자나 통계학자 같은 경우만 선형 회귀, 로지스틱 회귀 같은 분석을 시행하고, 나머지 대부분의 학자들은 카이 스퀘어 검정 하나에만 목매달고 있었다고 한다. 세월이 지나서 더 이상 수기로 통계 계산을 할 필요가 없어지고 개인용 컴퓨터가 보급되기 시작하면서 학문 영역에서 쓰이는 통계기법도 점점 발달..
-
다변수분석법 (R)R 2019. 9. 7. 03:14
탐색적 자료 분석이 끝난 후 본 분석인 다변수 분석을 시행해야 한다. 탐색적 자료 분석을 성실히 시행했으면 다변수 분석 결과는 이미 머릿속에 대충 그려질 것이다. 그 내용을 논문 양식에 맞춰서 제시하는 것이 이번 포스트의 중심 내용이다. 1. 다변수 분석의 필요성 사실 예전에 개인용 컴퓨터가 일반화되지 않았을 때는 통계작업을 전부 수기로 진행했었다고 한다. 그러니 다변수 분석 같은 것은 상상도 하기 힘들고 전문 수학자나 통계학자 같은 경우만 선형 회귀, 로지스틱 회귀 같은 분석을 시행하고, 나머지 대부분의 학자들은 카이 스퀘어 검정 하나에만 목매달고 있었다고 한다. 세월이 지나서 더 이상 수기로 통계 계산을 할 필요가 없어지고 개인용 컴퓨터가 보급되기 시작하면서 학문 영역에서 쓰이는 통계기법도 점점 발달..
-
탐색적 자료분석 3-3. 세 변수의 상호작용 (SPSS)SPSS 2019. 8. 29. 15:26
두 변수의 관계 파악이 끝났으면 세 변수의 상호작용을 살펴본다. 두 변수 관계를 본 후에 세 변수로 넘어가니 혹시 네 변수, 다섯 변수... 이 나올까 걱정할 수도 있겠지만 통상적으로 (상호작용 자체가 연구의 주제가 아닌 한) 세 변수를 넘는 상호작용은 연구에 고려하지 않는다. 이쯤에서 탐색적 자료 분석의 순서를 다시 정리해 보면, Y~x1+x2+x3+A+B+C (x1~3: 연속 변수, A,B,C: 범주형 변수) 대상변수 분석 내용 한 변수 분석 Y, x1, x2, x3, A, B, C 결측치 확인: Y, x1~3, A~C 최대/최소치/ 이상값 확인: Y, x1~3, A~C 정규성 검증 및 정규화: Y, x1~3 두 변수의 관계 파악 (연속변수) Y~x1 / Y~x2 / Y~x3 선형관계 유무 확인 잔차..
-
탐색적 자료분석 3-3. 세 변수의 상호작용 (R)R 2019. 8. 28. 13:19
두 변수의 관계 파악이 끝났으면 세 변수의 상호작용을 살펴본다. 두 변수 관계를 본 후에 세 변수로 넘어가니 혹시 네 변수, 다섯 변수... 이 나올까 걱정할 수도 있겠지만 통상적으로 (상호작용 자체가 연구의 주제가 아닌 한) 세 변수를 넘는 상호작용은 연구에 고려하지 않는다. 이쯤에서 탐색적 자료 분석의 순서를 다시 정리해 보면, Y~x1+x2+x3+A+B+C (x1~3: 연속 변수, A,B,C: 범주형 변수) 대상변수 분석 내용 한 변수 분석 Y, x1, x2, x3, A, B, C 결측치 확인: Y, x1~3, A~C 최대/최소치/ 이상값 확인: Y, x1~3, A~C 정규성 검증 및 정규화: Y, x1~3 두 변수의 관계 파악 (연속변수) Y~x1 / Y~x2 / Y~x3 선형관계 유무 확인 잔차..
-
탐색적 자료분석 3-2. 두 변수의 관계 파악 - 연속 변수 vs 범주형 변수 (SPSS)SPSS 2019. 8. 28. 13:19
이번 주제는 category 변수 형태의 독립변수와 연속 변수 형태의 결과변수의 관계를 분석하는 것이다. 본 주제로 들어가기 전 우선 t-test와 anova에 대해 정리하고 넘어가 보자. 1. 두 군의 평균 비교 어떤 두 그룹을 비교한다고 해보자. 예를 들어 남학생과 여학생의 성적을 비교한다고 해보자. 성적을 비교한다는 것은 어떤 의미일까? 한 명 한 명의 성적을 맞대어 비교해야 하나? 통상적으로 통계분석에서 뭔가를 비교한다는 의미는 "평균"을 비교한다는 의미이다. 평균을 비교하기 위해서는 평균이 어느 집단을 대표할 수 있는 수치가 되어야 하며, 분포가 "정규분포" 하는 것이 그 시작이다. 다시 정리해보면 우리가 사용하는 대부분의 통계기법은 평균의 비교이며, 이게 성립하기 위해서는 정규분포 해야만 한다..
-
탐색적 자료분석 3-2. 두 변수의 관계 파악 - 연속 변수 vs 범주형 변수 (R)R 2019. 8. 28. 00:40
이번 주제는 category 변수 형태의 독립변수와 연속 변수 형태의 결과변수의 관계를 분석하는 것이다. 본 주제로 들어가기 전 우선 t-test와 ANOVA에 대해 정리하고 넘어가 보자. 1. 두 군의 평균 비교 어떤 두 그룹을 비교한다고 해보자. 예를 들어 남학생과 여학생의 성적을 비교한다고 해보자. 성적을 비교한다는 것은 어떤 의미일까? 한 명 한 명의 성적을 맞대어 비교해야 하나? 통상적으로 통계분석에서 뭔가를 비교 한다는 의미는 "평균"을 비교한다는 의미이다. 평균을 비교하기 위해서는 평균이 어느 집단을 대표할 수 있는 수치가 되어야 하며, 분포가 "정규분포" 하는 것이 그 시작이다. 다시 정리해보면 우리가 사용하는 대부분의 통계기법은 평균의 비교이며, 이게 성립하기 위해서는 정규분포 해야만 한..
-
탐색적 자료분석 3-1. 두 변수의 관계 파악 - 연속변수 vs 연속변수 (SPSS)SPSS 2019. 8. 26. 20:40
이전 포스트에서 탐색적 자료 분석의 첫 단계로 연속형 변수에 대한 정규성 검증 및 정규 변환을 하는 법에 대해 알아보았다. 그 외에 자료 안에 결측치가 몇 개나 존재하는지? 최대치와 최소치가 어느 정도이며 최소-최댓값의 범위가 상식적인 범위 내인지 확인이 필요하다. 탐색적 자료 분석 과정 자체가 원래 귀찮은 노가다의 연속이지만 쓸만한 결과를 얻기 위해 꼭 필요한 과정이기도 하다. 이전 포스트의 첨부자료인 diamond.sav 파일을 이용해서 분석을 계속해보자. 1. 개별 변수의 확인 (이전 포스트 재탕) 이전 포스트에서 연속변수의 정규성 확인 및 정규 변환을 하면서 개별 변수의 확인 부분을 얼추 다루었다. 그 부분을 다시 확인하면, 분석 > 기술통계량 > 데이터탐색 "도표"항목에서 "검정과 함께 정규성도..