-
복합표본자료분석 - 2. 자료준비 (SPSS)SPSS 2019. 11. 19. 19:49
이전 포스트에서는 복합표본분석 에 대한 기본 개념에 대해 알아보았다. 이제부터 분석을 위한 자료 준비에 들어가 보자.
1. 국건영 자료 다운로드
국건영 홈페이지에 들어가면 간단한 이메일 인증만으로 자료를 다운로드 받을 수 있다. 누누히 얘기 하는 내용이지만 자료 분석 전 홈페이지에 있는 원시자료 이용지침서를 충분히 숙독한 후 분석을 진행해야 한다. 국건영 자료가 굉장히 좋은 자료임에도 불구하고 자료에 대한 이해도가 부족한 상태에서 날림으로 만들어진 논문들이 범람하고 있다. SPSS사용자라면 홈페이지에 있는 SPSS 이용지침서, 그리고 분석하려는 변수가 들어있는 해당 년도 자료의 분석 지침서를 충분히 읽어본 후 분석을 진행해야 한다.
2. 자료의 가로결합
국건영과 같이 대형 자료는 통상적으로 한 해의 분석 자료일지라도 몇 개의 파일로 나누어져 있다. 이렇게 나누어져 있는 자료를 id를 기준으로 하나의 파일로 묶는 것을 가로결합이라고 말하며, 가로결합이 된 이후의 2016년 및 2017년 자료를 하나의 자료로 만드는 것을 세로결합이라고 말한다. 즉 가로결합은 연구대상의 id를 기준으로 추가 변수를 만들어 주는 것이며, 세로결합은 케이스를 늘리는 것이라고 할 수 있다.
자료의 가로결합에서 문제가 되는 것은 기준이 되는 원본자료와 추가 변수가 존재하는 추가자료에서 동일한 id를 가져야 한다는 점이다.
국건영 자료의 경우 id를 기준으로 1:1로 매치가 되어 있으니 가로결합에서 큰 문제는 없다.
세부적인 결합방법은 SPSS 이용지침서에 잘 나와있으니 그 부분은 생략하고 몇 가지 팁을 언급하자면,
1) 파일 합치기 전 오름차순 정렬은 필요 없다. 이용지침서에는 미리 정렬을 권유하고 있지만 파일을 합치는 과정에서 기본 옵션이 정렬 후 결합이라서 미리 정렬할 필요는 없다.
2) 컴퓨터가 아주 빠르지 않다면 결합에 꽤 오랜 시간이 필요하다. 느긋하게 기다리자.
3) 파일을 결합하기 전에 필요없는 변수들은 미리 지우는 것이 좋다. 결합에 걸리는 시간도 늘어나고... 무엇보다 나중에 세로 결합할 때 결합할 두개의 파일은 변수명이 같아야 한다. 연구계획을 짤 때 필요한 변수를 미리 고민했다가 결합 전에 필요없는 변수들은 미리 정리하는 것이 좋은 것 같다. 물론 지금 단계에서 필요 없다고 생각한 변수가 나중에 필요할 수 있겠지만 그건 차라리 그때 새로 만드는게 나을 수 있다.
3. 자료의 세로결합
국건영 자료를 세로결합은 다른 년도의 자료를 합치기 위해서 필요하다. 국건영 자료의 경우 매년 수천명의 자료인데 구태여 다른 년도의 자료를 합칠 필요가 있을까라는 생각이 들 수도 있겠지만, 연구대상이 일반 인구집단이 아니라 어떤 특정 조건을 만족하는 집단일 경우 (특정 질환 보유자 혹은 특정 인구집단...) 한 해분 자료로 부족한 경우도 있다. 이런 경우 세로결합(케이스 추가)이 필요한데... 문제는 각기 다른 년도 자료의 결합이다보니 변수명이 달라지는 경우도 있고 어느해에는 측정되었던 자료가 다른해에는 존재하지 않을 수도 있다.
이런 문제를 피하기 위해 세로결합 전 미리 연구계획을 세워 어떤 변수가 필요한지 고민을 한 후에 연구를 진행해야 한다. 변수의 측정방식 혹은 변수의 표현방식이 중간에 바뀌었다면 이를 미리 해결해줄 필요가 있으며, 어떤 변수가 어느 시점부터 측정되지 않았다면 이 변수를 제외하고 n수를 늘리는 것이 나을지 아니면 변수를 포함하고 n수를 줄이는게 나을지에 대한 고민이 필요하다.
그리고 세로결합에 중요한 부분 중 하나가 psu, kstrata, weight 변수의 처리이다.
psu변수의 경우 따로 고민할 필요가 없다.
kstrata 변수의 경우도 일반적인 경우 그대로 두면되지만, 국건영 초반 자료(2012년 이전자료)를 분석할때에는 다른 변수(kstrata0, kstrata1...)을 써야 하는 경우도 발생한다.
마지막으로 가중치의 경우 세로결합을 하게 되면 적절한 수정을 가해 줘야 한다.
국건영 자료는 한국인 전체집단을 대표하는 자료이기 때문에 대상자들의 가중치를 모두 합하면 한국인의 인구수가 된다. 그런데 만약 자료를 세로결합하는 경우에는 만약 2년치 자료라면 인구의 2배, 3년치 자료라면 인구수의 3배가 되기 때문에 적절히 나눠줄 필요가 생긴다.
그런 의미에서 만약 2016년과 2017년 자료를 세로결합한다면 각각의 가중치 자료에 0.5를 곱해서 나눠주면, 대상자의 수는 2배가 되었지만 대상자 가중치의 총합은 일정하게 유지된다.
분석하려는 자료가 일정기간 동안에만 시행된 검사라면 (안/이비인후과 검사, 골밀도/체지방검사) 위의 그림과 같이 약간 다른 방식의 계산이 필요하기도 하다.
4. 분석계획파일 작성
자료의 결합 및 psu/kstrata/weight 변수가 정리되면, 그 후에 할일은 분석계획파일을 만드는 것이다. 분석계획파일이라는 것은 쉽게 말하면 복합표본 자료를 매번 분석할때마다 psu/kstrata/weight에 관한 정보를 입력할 필요가 생기는데 그 정보를 파일로 만들어 담아 놓는 것이다. 따라서 분석계획파일의 경우 미리 한 번 만들어 놓으면 분석을 마칠때까지 계속 사용하게 된다.
분석 > 복합표본 > 분석준비
찾아보기 버튼을 누른 후 적당한 파일명과 저장위치를 정한 후 다음으로 넘어간다.
그 후 열리는 창에 위와 같이 kstrata, psu, weight 순으로 입력 한다.
그 다음부터는 특별히 건드릴 필요 없이 계속 진행하면 저장위치에 분석계획파일이 저장된 것을 확인 할 수 있다. 이후부터 복합표본 분석에는 무조건 지금 만든 분석계획파일이 들어가게 된다.
여기까지 하면 분석 준비가 끝나게 된다. 이제부터는 본격적인 분석으로 들어가게 된다.
'SPSS' 카테고리의 다른 글
생존분석 (SPSS) (0) 2019.11.17 로지스틱회귀분석 (SPSS) (0) 2019.09.10 다변수분석법 (SPSS) (0) 2019.09.07 탐색적 자료분석 3-3. 세 변수의 상호작용 (SPSS) (0) 2019.08.29 탐색적 자료분석 3-2. 두 변수의 관계 파악 - 연속 변수 vs 범주형 변수 (SPSS) (0) 2019.08.28