[Data Science]⚽광주FC 선수단 데이터 분석

👉 오늘은 Data Science와 관련해서 여러 가지 자연과학 분야에서 적용 및 활용되는 “Principal component analysis(PCA)와 K-Means cluster” 분석에 대해서 가볍게 다뤄보고자 합니다.
👉 PCA(주성분 분석)은 흔히 데이터의 차원을 축소하는 기법입니다. 데이터를 투영시켰을 때, 데이터의 분산을 최대화하여 서로 직교하는 Unit verctor를 찾는 분석 방법입니다.
🧠PCA(Principal Component Analysis)의 수학적 원리에 대해서는 많은 블로그에서 다루고 있기 때문에 이론에 대한 세부적인 내용은 제외하고, 제가 좋아하는 광주 FC 축구단 선수들의 특성(신체적 조건, 경기 출장 기록, 골, 도움 등) 홈페이지에 있는 정보를 활용해서 분석해 보고자 합니다. 분석은 R open source를 활용했습니다.
🧠아래의 <표>과 <그림> 광주 FC 홈페이지에 등록된 선수 36명을 대상으로 PCA를 분석했습니다. 먼저 Cumulative proportion을 확인해 봅니다. 주성분 3에서 전체 데이터 분산의 약 86%를 설명할 수 있다고 합니다. 즉, 선수들의 특성 9가지를 3개로 줄이더라도 대부분 정보를 유지할 수 있다는 것을 의미합니다.
Category
|
PC1
|
PC2
|
PC3
|
PC4
|
PC5
|
PC6
|
PC7
|
PC8
|
PC9
|
Standard deviation
|
2.19
|
1.37
|
1.01
|
0.83
|
0.56
|
0.29
|
0.26
|
0.18
|
0.11
|
Proportion of variance
|
0.53
|
0.21
|
0.11
|
0.07
|
0.03
|
0.00
|
0.00
|
0.00
|
0.00
|
Cumulative proportion
|
0.53
|
0.74
|
0.86
|
0.94
|
0.97
|
0.98
|
0.99
|
0.99
|
1.00
|

🎯아래의 [그림]은 선수들의 특성(Feature)의 loading value에 의한 방향성과 투영한 산포도는 선수들의 포지션을 의미합니다. 크게 세 가지로 해석할 수 있습니다. Debut과 birth 선수들의 나이와 데뷔 시점/ height와 weight 선수들의 신체조건, 마지막으로 appearance, assist, goals 등 선수들의 경기 성과 및 활동 지표로 구분할 수 있습니다.

📌1사분면에서 4사분면까지 다양한 포지션의 선수들이 분포되어 있다는 점을 알 수 있습니다. 그렇다면, 이런 좌표값을 가지고 군집화해보겠습니다. K-means(“WSS”)를 적용하기 전에 최적의 군집 수를 파악해야 합니다.
📌아래의 [그림]를 살펴보면, 3개의 군집을 설정하는 것이 적합하다는 것을 알 수 있습니다. 단, k-means cluster 방법은 분석을 수행할 때마다 결과가 조금씩 차이가 있을 수 있습니다. 그럴 때는 반복문을 통해서 최적의 적합한 클러스터 개수를 파악한 후 분석을 수행하는 것이 좋습니다.


📌분석을 수행하면, 아래의 [그림] 같은 분석 결과를 도출할 수 있습니다. Biplot 값과 중첩해서 살펴보겠습니다.
📌분석 결과를 해석해 보면, 🔴Cluster 1(red)은 체격 조건이 우수하고, 데뷔가 빠른 선수들의 군집입니다. 단순히 기록 측면에서 골과 도움 등 기록 면에서는 기여도가 부족하다고 해석(?) 할 수 있습니다. 🟢Cluster2(green)은 경기 출장, 골, 도움 등 우수한 선수들의 군집이라고 볼 수 있습니다. 경험이 풍부하고, 활동성이 높은 선수들이라고 볼 수 있죠. 마지막으로 🔵Cluster 3(blue)은 데뷔와 출생연도에 의해 형성된 군집으로 해석할 수 있습니다.

🙌선수들의 이름을 언급하고 싶지만, 공부한 내용을 정리하는 것이 목적이기 때문에 이 정도로 마무리 하겠습니다. 단순히 기록을 나열하는 것이 아니라 데이터 속에 숨겨진 패턴을 시각적으로 확인하고, 각 선수들의 유형을 정량적으로 이해할 수 있을 것입니다? 앞으로도 스포츠 데이터를 활용해서 다양한 인사이트를 제공해 보겠습니다.
출처
1. 광주FC 홈페이지(https://www.gwangjufc.com/player/pro.php,), 검색일자 : 2025년 04월 19일.