Cities
[Cities]📍 R로 공간정보 불러오기부터 인구 정규성 검정까지!
by_RoUS
2025. 5. 16. 14:14
728x90
이번 글에서는 R을 활용해 공간정보 데이터를 불러오고 시각화하며, 마지막으로 부산·울산·경남 지역의 격자(500m x 500m) 단위 인구 데이터에 대한 정규성 검정까지 진행해보겠습니다.
공간 데이터 분석과 통계 검정을 한 번에 체험해볼 수 있는 예제입니다.
🗺️ 1. R에서 공간정보 불러오기
먼저 행정구역과 격자 데이터를 불러오고, 이를 시각화합니다.
500m x 500m 해상도의 격자 정보를 기반으로 시군구에 포함된 데이터를 추출합니다.
대상 지역: 부산광역시, 울산광역시, 경상남도
주요 패키지: sf, ggplot2, dplyr

📊 2. 정규성 검정 (K-S Test)
🧪 전체 인구 분포 검정
격자별 인구 수를 기반으로 Kolmogorov–Smirnov (K-S) 검정을 수행해 보았습니다.
인구 수 데이터는 정규분포를 따르지 않는다는 결론입니다.

항목
|
해석
|
D = 0.44376
|
정규분포와 차이가 큼 (D값이 0보다 큼)
|
p < 2.2e-16
|
귀무가설 기각 → 정규분포라고 보기 어려움
|
경고 메시지
|
데이터에 중복값(ties)이 있어 K-S 검정의 엄밀도가 낮아질 수 있음
|
🔁 log 변환 후 재검정
인구 수 데이터를 log 스케일로 변환한 뒤 다시 정규성 검정을 해보았습니다.
log 변환에도 불구하고 정규성 가정이 성립되지 않는 것으로 나타났습니다.

항목
|
해석
|
D = 0.37272
|
여전히 정규분포와 차이 존재
|
p < 2.2e-16
|
귀무가설 기각
|
경고 메시지
|
데이터 중복값 존재로 엄밀도 낮음
|
🔍 결론
부산·울산·경남 지역의 격자별 인구 데이터는 정규분포를 따르지 않습니다.
log 변환을 하더라도 정규성을 만족시키지 못하기 때문에, 이후 분석에서는 정규성 가정이 필요한 기법보다는 비모수 검정 또는 변환 기법을 적극 고려할 필요가 있습니다.공간 시각화를 통해 지역별 인구 분포 특성을 명확하게 파악할 수 있었습니다.


728x90