R
-
복합표본자료분석 - 3. EDA (R)R 2019. 12. 28. 20:47
이전 포스트에서 EDA에 대해 다루려 했는데, 예제 논문을 따라가다 보니 너무 큰 문제가 보여 더 이상 진행하는 게 의미가 없어 도중에 중단했다. 사실 이런 경우는 굉장히 흔한데, 예상치 못한 일이 발생한 경우 무시하고 넘어가는 것보다 문제를 해결할 방법을 고민하거나 도저히 안 되겠는 경우 중단하는 게 차라리 낫다. 그런 이유로 해외 논문 중 먼저 만들어 놓은 자료를 이용할 수 있는 논문을 찾아서 EDA과정부터 다시 진행해 보려고 한다. Gangwisch, J. E., Malaspina, D., Boden-Albala, B., & Heymsfield, S. B. (2005). Inadequate sleep as a risk factor for obesity: analyses of the NHANES I...
-
복합표본자료분석 - 2½. EDA 도중에 포기한 예 (R)R 2019. 12. 19. 14:46
인터넷 뉴스를 보면 건강 관련 기사가 굉장히 많다. 그중에 일부는 의학이나 보건 관련 연구에 대한 기사이다. 최근 일부 기관에서 구성원들의 연구결과가 언론을 탄 경우 업적평가에 가산점을 주거나 심지어는 인센티브를 제공하는 경우까지 제공하는 경우가 있어서 이런 일들이 점점 더 늘어나는 추세이다. 근데 또 그중의 상당수는 국건영과 같은 공개자료를 이용한 연구이다. 앞에서도 계속 언급했듯이 이러한 공개자료를 사용하는 경우 자료 수집에 드는 노력과 비용을 아낄 수 있으며, 개인적인 노력으로는 국건영과 같은 한국인을 대표하는 자료를 얻을 수 없다는 장점이 있다. 그 반면에 자료에 대한 충분한 이해 없이 공장에서 찍어낸 듯한 저 퀄리티의 연구결과가 난립한다는 점은 오히려 국민건강과 전문가에 대한 국민의 신뢰도를 떨..
-
복합표본자료분석 - 2. 자료준비 (R)R 2019. 12. 18. 21:42
이전 포스트에서는 복합표본분석 에 대한 기본 개념에 대해 알아보았다. 이제부터 분석을 위한 자료 준비에 들어가 보자. 1. 국건영 자료 다운로드 국건영 홈페이지에 들어가면 간단한 이메일 인증만으로 자료를 다운로드 받을 수 있다. 누누히 얘기 하는 내용이지만 자료 분석 전 홈페이지에 있는 원시자료 이용지침서를 충분히 숙독한 후 분석을 진행해야 한다. 국건영 자료가 굉장히 좋은 자료임에도 불구하고 자료에 대한 이해도가 부족한 상태에서 날림으로 만들어진 논문들이 범람하고 있다. 분석에 R을 사용하는 연구자라도 국건영 자료는 SPSS 파일을 받아서 분석을 시행해야 할 뿐 아니라 변수에 대한 세부적인 내용을 파악하기 위해서 홈페이지에 있는 SPSS 이용지침서, 그리고 분석하려는 변수가 들어있는 해당 년도 자료의 ..
-
생존분석 (R)R 2019. 11. 15. 16:14
생존분석은 의학연구에서 굉장히 흔히 쓰이는 분석기법이지만, 꽤 흔한 빈도로 잘 못 사용되는 분석법 이기도 하다. 언뜻 생존분석은 로지스틱 회귀분석과 비슷하다는 생각이 들 수도 있지만, 생존분석에는 시간이라는 개념이 들어가기 때문에, 시간에 따른 변화를 읽어내지 못한 채 분석을 하게 되면 잘못된 결과를 얻을 수 있다. 이번 포스트에서는 생존분석의 실질적인 측면에 대해 살펴보기로 하자. 1. Kaplan-Meier curve 상당수의 의학논문에서 생존분석을 이용해서 분석을 하는 경우, Kaplan-Meier curve를 제시하고 그 후 cox 분석을 주요분석법으로 사용한다. Kaplan curve를 보여주는 이유는 아무래도 단조로운 논문에 그래도 그림이 하나쯤은 필요하기 때문이기도 하지만 더 큰 이유는 co..
-
로지스틱회귀분석 (R)R 2019. 9. 10. 12:47
이전까지는 주로 선형회귀분석방법에 대해 알아보았다. 선형회귀분석법은 다른 분석방법을 배우기 위한 기본과정이기 때문에 많은 시간을 할애해서 배울 필요성이 있기는 하지만, 실제로 논문작성에서 그리 많이 사용되는 방법은 아니다. 하지만 이번에 다룰 로지스틱회귀분석법은 극단적으로 말하자면 관찰연구의 대부분을 차지하는 방법이다. 아마 대부분의 임상의사는 로지스틱회귀분석+생존분석으로 평생 욹어 먹을 가능성이 크다. 그런 만큼 세심히 알아보자. 1. 로지스틱회귀분석의 기본원리 원래 학문적 배경이 수학이나 통계 쪽이 아니라서 숫자 나오면 두통이 발생하기 시작한다. 하지만 그래도 이해를 위해 어쩔 수 없이 알아야 하는 과정이 존재한다. 머리 덜 아프게 그리스식 알파벳은 사용 않고 최대한 쉽게 설명해 보려 한다. 로지스틱..
-
다변수분석법 (R)R 2019. 9. 7. 03:14
탐색적 자료 분석이 끝난 후 본 분석인 다변수 분석을 시행해야 한다. 탐색적 자료 분석을 성실히 시행했으면 다변수 분석 결과는 이미 머릿속에 대충 그려질 것이다. 그 내용을 논문 양식에 맞춰서 제시하는 것이 이번 포스트의 중심 내용이다. 1. 다변수 분석의 필요성 사실 예전에 개인용 컴퓨터가 일반화되지 않았을 때는 통계작업을 전부 수기로 진행했었다고 한다. 그러니 다변수 분석 같은 것은 상상도 하기 힘들고 전문 수학자나 통계학자 같은 경우만 선형 회귀, 로지스틱 회귀 같은 분석을 시행하고, 나머지 대부분의 학자들은 카이 스퀘어 검정 하나에만 목매달고 있었다고 한다. 세월이 지나서 더 이상 수기로 통계 계산을 할 필요가 없어지고 개인용 컴퓨터가 보급되기 시작하면서 학문 영역에서 쓰이는 통계기법도 점점 발달..
-
탐색적 자료분석 3-3. 세 변수의 상호작용 (R)R 2019. 8. 28. 13:19
두 변수의 관계 파악이 끝났으면 세 변수의 상호작용을 살펴본다. 두 변수 관계를 본 후에 세 변수로 넘어가니 혹시 네 변수, 다섯 변수... 이 나올까 걱정할 수도 있겠지만 통상적으로 (상호작용 자체가 연구의 주제가 아닌 한) 세 변수를 넘는 상호작용은 연구에 고려하지 않는다. 이쯤에서 탐색적 자료 분석의 순서를 다시 정리해 보면, Y~x1+x2+x3+A+B+C (x1~3: 연속 변수, A,B,C: 범주형 변수) 대상변수 분석 내용 한 변수 분석 Y, x1, x2, x3, A, B, C 결측치 확인: Y, x1~3, A~C 최대/최소치/ 이상값 확인: Y, x1~3, A~C 정규성 검증 및 정규화: Y, x1~3 두 변수의 관계 파악 (연속변수) Y~x1 / Y~x2 / Y~x3 선형관계 유무 확인 잔차..
-
탐색적 자료분석 3-2. 두 변수의 관계 파악 - 연속 변수 vs 범주형 변수 (R)R 2019. 8. 28. 00:40
이번 주제는 category 변수 형태의 독립변수와 연속 변수 형태의 결과변수의 관계를 분석하는 것이다. 본 주제로 들어가기 전 우선 t-test와 ANOVA에 대해 정리하고 넘어가 보자. 1. 두 군의 평균 비교 어떤 두 그룹을 비교한다고 해보자. 예를 들어 남학생과 여학생의 성적을 비교한다고 해보자. 성적을 비교한다는 것은 어떤 의미일까? 한 명 한 명의 성적을 맞대어 비교해야 하나? 통상적으로 통계분석에서 뭔가를 비교 한다는 의미는 "평균"을 비교한다는 의미이다. 평균을 비교하기 위해서는 평균이 어느 집단을 대표할 수 있는 수치가 되어야 하며, 분포가 "정규분포" 하는 것이 그 시작이다. 다시 정리해보면 우리가 사용하는 대부분의 통계기법은 평균의 비교이며, 이게 성립하기 위해서는 정규분포 해야만 한..