복합표본자료분석 - 1. 기본개념 (SPSS & R) :: 지루한 일상의 소중함

출처: https://3months.tistory.com/307 [Deep Play]

ABOUT ME

-

Today: -

Yesterday: -

Total: -

복합표본자료분석 - 1. 기본개념 (SPSS & R)

의학논문작성 2019. 11. 19. 19:49
국건영원시자료분석지침서(SPSS).pdf

8.81MB

몇 년전까지만 해도 논문을 쓰기 위해서는 아무리 좋은 아이디어를 가지고 있더라도 대표성을 지니는 자료의 수집이 하나의 장벽처럼 작용했었다. 하지만 최근에는 국민건강영양조사(이하 국건영) 자료를 필두로 여러 종류의 공개자료들이 있어 이런 문제점이 많이 해소되었다. 하지만 이를 다루기 위해서는 기존의 분석법과 약간 다른 분석법이 필요하다. 이 내용을 하나의 포스트에 담기에는 양이 너무 많기 때문에 1. 기본개념, 2. 분석자료준비, 3. 복합표본분석 의 3개 포스트로 나누어 진행할 예정이다.

1. 자료를 얻는 방법

논문 작성을 위해 설문지 뿌려 본 사람은 대부분 이게 얼마나 힘들고 돈이 드는 작업인지 뼈저리게 느끼고 있을 것이다. 더욱이 뭔 검사라도 하나 하려면 난이도는 두배 세배로 늘어나게 된다. 결국 대표성이나 random sampling 같은 개념은 저리 던저 버리고 아는 사람 혹은 부탁하면 들어줄만한 사람들만을 찾아 다니게 되는 것이 현실이다. 이런 측면에서 국건영으로 대표되는 공개자료들의 가치는 크다고 할 수 있다. 내가 힘들게 자료를 구하지 않아도 국가가 예산을 들여서 자료수집을 한 다음에 공짜로 쓸 수 있도록 해 주는 것이다. 이런 고마운 자료를 쓰지 않는다면 말이 되지 않는다.

물론 내가 원하는 자료, 항목이 정확히 없을 수도 있지만 워낙 여러 자료들이 나오고 있으며 국건영 같은 경우 해마다 새로운 항목을 추가하는 등 이런 단점을 상쇄하려는 노력을 하고 있다. 대표적인 의료/보건 관계 자료는 아래와 같다. 해마다 항목이 다른 경우가 많기 때문에 홈페이지에 들어가서 조사항목을 천천히 살펴보는 것이 도움이 된다.

1. 국민건강영양조사 : 전통이 있으며 가장 대형자료. 일부 피검사와 신체계측 자료도 포함되어 있다.

2. 청소년 건강행태조사 : 청소년 대상 설문조사

3. NIH코호트 : KOGES를 포함한 여러 종류의 코호트. 국건영보다 대상자 수는 적지만 유전자 검사를 포함한 여러 검사가 포함되어 있으며 무엇보다 대상자를 연속 측정한 자료라서 longitudinal study가 가능하다는 점이 크다.

4. 고령화연구패널조사 : 일명 KLoSA. 노인 대상 연구라서 일부 신체 계측이 포함되어 있다. 연속측정자료.

5. 국민체력실태조사 : 체력측정 결과자료.

그 외 노인실태조사 나 장애인실태조사 같은 자료도 있지만 위에 언급한 자료에 비해 접근성이 약간 떨어지는 측면이 있다. 측정항목은 검색 가능하니 다른 자료로 대체 불가능한 경우 차선책으로 고려 할 수 있다.

원하는 자료를 결정했으면 자료분양신청을 해야 한다. 대개 홈페이지로 신청 가능하나 전화가 필요할 수도 있다. 그리고 대부분 IRB 승인을 필요로 한다. 위에 언급한 자료 중 가장 분양이 까다로운 자료는 NIH코호트 자료이다. 이 경우

1. 기관 IRB 승인

2. 연구계획서, 필요한 자료범위 및 IRB 결과 접수

3. 승인 후 결과 다운로드

의 과정을 거치게 된다. 그리고 자료 중 생존자료가 포함된 경우도 있는데 이 경우 직접 자료제공 기관 내에 있는 자료분석실에서 분석을 해야 한다. 그리고 일부 자료는 사용 할 때 비용이 발생하기도 한다. 국건영의 경우 이메일 아이디만 하나 넣어 주면 그 즉시 다운 가능하니... 그런 이유로 위 자료 중 가장 많이 사용되는 자료이다.

2. IRB (생명윤리위원회) 심의

국건영과 같은 공개 자료 분석 시 IRB를 받아야 하는 지에 대해 잘 모르는 경우가 종종 있는 것 같다.

결과부터 말하자면... 무조건 받아야 한다.

위에 언급한 모든 자료는 인체대상자료이며, 이를 이용해서 연구를 하려는 경우 예외 없이 무조건 irb 심의를 받아야 한다. 몇 년전까지만 해도 피 뽑아서 결과 낸 자료라 하더라도 irb 같은거 없이 그냥 논문 내던 시절도 있었지만 지금은 그게 안 통한다. 지금도 국내 저널은 그냥 저냥 넘어가는 경우가 있지만 (어찌 보면 리뷰어가 누구냐의 차이니 운이 좌우한다 할 수 있다.) 해외저널은 그런거 없다.

근데 많은 사람을 헛갈리게 하는 것 중 하나가...

국건영의 예인데... 국건영 자체가 IRB를 받았다. 그럼 연구자가 또 받을 필요가 있나? 라는 생각이 들 수도 있을 것이다. 실제로 많은 연구결과들이 위에 질병관리본부의 IRB승인 번호를 논문에 포함하고 있다. 근데 그러면 안된다. 저 위의 irb 는 질병관리본부가 연구자료를 수집하는것을 허락받는 irb이고 그 자료를 이용해서 연구를 하려면 새로운 irb를 받아야 한다.

그럼 그 뒤에 나오는 것이 공개된 자료를 사용했으니 irb필요 없지 않냐는 것이다. 필요 없긴 한데 그 판단을 연구자가 하면 안되며, irb의 심의면제 (IRB Exempt)를 신청해야 한다.

아직까지 국건영 irb 안 받았다고 잡혀간 사람은 없긴 한데... 생명윤리법 위반이다. irb에 따라 다르지만 대개 심의면제 확인은 2주 내로 내주는 것 같다. 크게 보면 법 위반이며, 작게 보면 힘들게 작성한 논문이 쓰레기통으로 직결하는 원인을 제공한다. 귀찮아 하지말고 irb 심의는 꼭 챙기도록 하자.

3. 복합표본자료의 구조

서두에도 언급했듯이 복합표본자료의 구조는 일반자료의 구조와 차이를 가진다. 복합표본자료의 대표격인 국건영자료를 예로 들어 살펴보자.

1) 대표성과 random sampling

논문을 작성할 때 중요한 것 중 하나가 대표성이다. 아래의 예를 살펴보자.

A: 요즘 게임 중 인기 최고는 스타크래프트야!

B: 요즘? 스타는 예전 게임이잖아. 인기 최고는 다른 게임 아니야?

A: 무슨 소리야! 내 친구들은 모이면 스타만 한다니까!

위 대화의 A는 내 친구→게임을 즐기는 전체 인구 로 일반화를 시도 했다. 만약 내 친구라는 집단이 게임을 즐기는 전체인구를 대표할 수 있다면 (대표성을 가진다면) 위의 대화는 합리적인 대화라고 할 수 있다. 하지만 위의 대화는 대부분의 사람이 무리한 일반화라고 느끼며, 이는 내 친구라는 집단이 대표성을 가지지 못 한다는 의미이다.

대표성을 부여하는 가장 좋은 방법은 random sampling이다. 원하는 모집단의 구성원 중 일부를 무작위로 추출함으로써 대표성을 지니게 하는 것이다. 근데 이게 힘든게... 만약 고혈압 환자를 대상으로 연구를 한다면... 전 세계 고혈압 환자 중 200명을 무작위로 추출한다면... 세계 일주가 필요할 것이다. 이건 너무 힘드니 가정을 좀 좁혀보면... 한국인 고혈압 환자는 전세계 고혈압 환자를 대표할 수 있다고 가정하고... 한국인 고혈압 환자 중 200명을 무작위 추출... 이것도 전국일주가 되겠다. 한 단계 더 나가면 서울시, 더 나가면 우리병원 환자들, 결국은 2019년 내 외래에 방문한 고혈압 환자가 대상이 될 것이다. 근데 진짜로 내 환자가 전체 고혈압 환자를 대변할 수 있나? 만약 아니라면 내가 작성한 논문의 결과는 위의 내 친구들의 예와 동일해 진다. 대표성 문제는 통계 프로그램이 해결해 줄 수 없는 문제다. 그리고 내 친구들의 얘기를 실어 줄 저널은 어디에도 존재하지 않을 것이다.

2) psu, strata, weight

앞에서 대표성에 대해 언급했는데, 국건영도 한국인 전체 집단에 대해 대표성을 가지고 있다. 근데 그 방법을 random sampling이 아닐 따름이다.

만약 한국인 전체에서 1000명을 random sampling으로 뽑는다 상상해 보자. 물론 2/3는 수도권에 있겠지만... 전국 방방곡곡을 대동여지도를 그리는 마음으로 돌아 다녀야 할 것이다. 물론 개인 연구자 같으면 적당한 선에서 포기하고 본인 주변에서 어찌어찌 모집하겠지만 수십억의 국가예산이 드는 연구를 그런식으로 할 수 는 없다. 그렇다고 전국을 돌아다니기도 힘드니... 그래서 나온게 복합표본계획법이다.

국건영에서는 복합표본계획을 위해서 2-stage cluster sampling 방법을 사용한다. 첫 단계가 psu(집락변수, primary sampling unit)을 사용한 분류이다. 만약 전국에서 1000명을 뽑는다면 서울시에는 200명이 해당된다. 이 인원을 서울시 인구에서 무작위로 뽑으면 조사가 많이 힘들어지니 서울시를 몇십조각 으로 나누어서 거기서 하나나 두개의 구역을 무작위로 선정하면 된다. 다시 말하자면 전국에서 무작위로 1000명을 뽑으면 대략 서울에서는 200명이 해당되니, 서울을 여러 조각으로 나누어서 그 중 한 두 조각에서 200명을 선정하는 것이 조사하기 편하다는 것이다. 이 정보가 포함된 것이 psu이다.

두 번째 단계가 ssu(secondary sampling unit)을 이용한 단계이다. 국건영의 원조는 미국의 NHANES이다. 근데 미국이라는 나라가 워낙 넓고 인종이나 생활수준 차이의 폭이 커서, 위의 psu만 가지고는 대표성을 지니기 힘들다. 따라서 이를 고려한 정보가 ssu에 담겨 있다. 근데 우리나라 국건영은 이런 배려가 필요 없다. 가장 중요한 인종문제가 없으며 생활 수준도 큰 차이가 없다. 따라서 국건영의 ssu인 kstrata는 지역과 집의 형태 (아파트/일반주택) 만을 고려했다.

위의 표를 보면 알겠지만 kstrata 변수에 포함된 정보는 기수, 지역, 거주형태의 3가지 정보이다.

마직막이며 가장 중요한 것이 weight(가중치)이다. 미국 NHANES를 보면, 여기도 대상자 수는 매년 1000명이다. 근데 미국 인구 중 백인이 72%, 인디언은 5%이다. 이를 정확이 반영하면 NHANES 대상자 중 인디언은 50명이다. 근데 50명을 가지고 무슨 연구를 하기에는... 그러니 백인의 대상자 수를 좀 줄이고, 인디언 대상자는 좀 많이 모집하는게 전체적인 자료의 질을 좋아지게 한다. 다만 이를 나중에 가중치를 이용해서 보정한다. 인디언을 100명 모집하고 가중치를 1/2만 반영하면 결과는 달라지지 않게 된다. 소득도 마찬가지이다. 저소득층도 마찬가지 이다. 인원이 적은데 사회적으로 혹은 학문적으로 배려해야 할 경우 대상자를 조금 많이 모집한 후 가중치를 줄여서 반영(up-sampling)하게 되면 문제가 없게 된다.

위의 그림은 국건영 2016년의 psu, strata, weight이다. 위의 내용을 이해한 후 보면 좀 달라 보일 것이다.

국건영의 가중치 변수는 여러개이다. 국건영에는 설문조사 외에도 여러가지 검사가 포함된다. 그 중 시간과 돈이 많이 드는 검사는 국건영 대상자 1000명 모두를 대상으로 할 수 없다. 이런 경우 일부에게만 검사를 한 후 가중치를 이용해서 조정하는 방법을 쓴다. wt_itvex변수는 설문지 가중치이다. 1000명 대상자 모두 설문지를 작성했으니 모든 대상자에게 가중치가 주어 진다. wt_ntr변수는 영양조사를 분석할 때 쓰는 가중치이다. 영양조사는 대상자 중 일부에게만 시행했기 때문에 군데군데 빈 부분이 보인다.

kstrata변수와 weight변수는 사용하려는 변수에 따라 달라진다. 따라서 분석전에 어떤 strata변수와 weight변수를 쓸지를 알기 위해 이용지침서를 숙독해야 한다. (특히 가중치 변수의 경우 잘못된 변수를 사용할 경우 치명적인 오류를 보일 수 있다. 주의해야 한다. 그리고 2개 년도 이상 자료를 묶는 경우 가중치를 적절한 방식으로 나눠줘야 한다. → 첨부파일(국건영 분석법) 자료 참조)

3) 가중치에도 여러 종류가 존재한다.

가중치에는 여러 종류의 가중치가 존재한다. SPSS에도 잘 보면 가중치를 입력할 수 있는 부분들이 군데군데 숨어 있다. 데이터 영역에 가중치부여 항목이 존재하며, 선형회귀분석 항목에도 WLS 가중치 항목이 존재한다. 복합표본의 가중치를 여기 넣어 분석하면 안될까? 생각해 볼 수도 있겠으나... 당연히 안된다. 우선 WLS가중치는 선형회귀분석에서 등분산 가정 맞춰주기 위한 항목이다. 전혀 상관없는 부분이니 넘어가고,

위의 자료를 일반적인 분석법을 이용해서 t-test 를 시행하면,

분석 > 평균비교 > 독립표본 T 검정

당연히 유의하지 않는다(p-value 0.293). n이 4인데 유의하기는 힘들 것이다.

이번엔 가중케이스를 이용해 가중치를 줘보자.

데이터 > 가중케이스

분석 > 평균비교 > 독립표본 T 검정

p-value < 0.001로 유의하다.

가중케이스는 가중치를 진짜 케이스가 가중치만큼 존재하는 것으로 가정하고 분석을 진행한다. 위의 예제는 비록 4개의 자료였지만 각각의 자료는 가중치를 100만큼 가지고 있으므로 400명의 자료라고 생각하고 분석하니 통계적으로 유의한 것이다. 국건영 같은 경우 우리나라 사람 5000만명을 대표하고 있지만 실제자료는 5000만명이 아니라 1000명의 자료일 뿐이다.

실제의 복합표본 분석은 어떻게 보여주는지 보자.

복합표본 분석법은 나중에 다룰거니 방법은 넘어가고 결과를 보면 p-value는 0.182로 유의하지 않게 나왔다.

이 결과를 정리하면 다음과 같다.

1. 일반적인 방법으로 분삭한 결과와 가중치를 줘서 분석한 자료, 그리고 복합표본 분석 자료의 결과는 모두 다르다.

2. 따라서 복합표본 분석법을 이용한 결과여야지만 신뢰 가능하다.

4. 통계적 유의성과 effect size

나 또한 그런 말을 자주 쓰기는 하지만, "두 그룹은 통계적으로 유의한 차이를 보인다."라는 말을 "두 그룹은 의미있는 차이를 보인다."라는 말과 거의 비슷한 의미로 쓰는 경우가 많은것 같다. 이러한 인식은 "통계적으로 유의할 정도의 차이를 보였으니 의미있는 정도의 차이다." 라는 생각에서 나온 말이며 여태까지는 그리 크게 잘못 된 말은 아니었다.

이런 말이 관용적으로 쓰이게 된 이유는 여태까지의 연구들은 대부분 n수가 적은 연구들이 대부분 이어서 의미있는 차이를 보인다라는 조건보다 통계적으로 유의하다라는 조건이 더 만족하기 힘들었기 때문이었다. 하지만 최근 빅데이터의 범람과 국건영 같은 대규모 역학 자료들이 등장하면서 의미가 없는 차이면서도 통계적으로는 유의한 차이를 보이는 것들이 흔해졌다(일반적으로 통계적인 감별력은 √n에 비례).

따라서 n수가 수천을 넘어가는 대형연구들의 결과를 해석할때는 통계적 유의성만 볼 것이 아니라 그 결과가 임상적으로 얼마나 의미있는지를 확인해야 한다. 만약 결과가 선형회귀라면 x의 증가에 따른 y의 증가폭을 확인 (ex. 예를 들어 고혈압약 A와 B를 써보니 systolic BP의 차이가 0.5mmHg이며 통계적으로는 유의하다면 과연 이것이 의미있는 결과 일지...), 로지스틱 회귀결과라면 odds ratio가 의미가 있는 차이를 보이는지 확인해 봐야 한다.

5. type 1 & type 2 error

type 1 error와 type 2 error에 대한 내용은 아마 통계책 초반에 있는 내용일것 같은데, 국건영과 같은 공개 자료에서는 약간 다른 느낌으로 다가오게 된다.

대부분의 연구들은 type 1 error를 5% 미만으로 설정하고 있다 (p-value <0.005). 그 말은 대략 비슷한 연구를 20번 쯤 하면 한번 정도는 통계적으로 유의한 결과가 나올 수 있다는 의미이다. 정확히 같은 자료로 분석하면 동일한 결과가 나오겠지만 국건영 자료의 경우 몇 년간의 자료를 연결해서 분석하는지, 보정변수로 어떤 것들을 사용했는지, 연구자가 적절한 분석법을 사용했는지에 따라 5% 보다 커질 수도 있다.

문제는 비슷한 연구 20개 중에 의미가 없다고 나온(제대로 된) 연구 19개는 쓰레기 통으로 가고, 의미가 있다고 나온 하나의 연구만 저널에 실려서 후학들을 오인하게 만드는 것이다.

6. 그 밖의 주의 사항

수 년간 코호트 자료를 이용해 논문을 작성하면서 혹은 작성된 논문을 보면서 느꼈던 주의할 점은,

1. 특히 SPSS를 사용하는 경우 첨부파일인 국건영 분석법 자료는 복합표본 분석을 위한 최고의 교재이다.

돈 받고 파는 책이나 자료보다 훨씬 좋은 자료이다. 완벽히 이해 될 때까지 읽어라. 몇 번이고 읽어서 완전히 내 것으로 만든 후 분석을 해야 한다.

2. 국건영 자료를 이용한 논문 중 의뢰로 많은 수가 국건영 자료를 완벽히 이해하지 못한채 결과를 내고 있다. 어떤 변수들이 있는지 그 변수들이 어떤 방식으로 측정되었는지 이해한 후에 연구를 시행해야 한다. 당연한 말처럼 들리겠지만 안그런 경우가 너무 흔한 것 같다.

3. 국건영 자료는 공개된 자료이기 때문에 누군가 내 연구결과를 동일한 방법으로 재현해 볼 수 있다. 잘못된 결과를 출판했을 때 누군가가 내 잘못을 검증할 수 있다는 점이다.

4. 논문에 결과 제시는 복합표본 분석법을 통한 결과만 제시해야 한다. 가끔 내가 하려는 분석이 복합표본분석법에서 지원하지 않기 때문에 그냥 일반적인 방법으로 분석했다는 저자들이 보인다. 그 심정은 이해가 가는데... 그럼 안된다. 아주 혁명적이고 독창적이지 않으면 복합표본분석을 사용하지 않았다는 이유 하나로 쓰레기통 직행이다.

여태까지 복합표본 분석을 시작하기 전 기초적인 내용에 대해 살펴보았다. 다음 포스트는 실제 연구결과를 바탕으로 실질적인 복합표본 분석을 시행할 예정이다.
저작자표시 비영리 변경금지

'의학논문작성' 카테고리의 다른 글

의학 논문에서의 표 작성법 (0) 2019.08.04
관련글 관련글 더보기
- 의학 논문에서의 표 작성법
댓글

인기포스트

ABOUT ME

LINK

ADMIN

티스토리툴바