오늘은 데이터를 통해, 가설을 검증합니다. Kaggle 에서 데이터를 가져왔습니다. 구글 클라우드 플랫폼과 빅쿼리를 통해 데이터를 서버에 등록했습니다. 이어 구글 스프레드 시트를 통해 데이터를 확인했고 시각화기능을 이용해 가설을 검증했습니다.
본글은 1.왜 광고 클릭률에 대한 데이타셋을 분석하나요? 2.본 데이타에서 어떤 가설을 생각해 볼 수 있고, 검증할 수 있나요? 로 구성되어 있습니다.
1.왜 광고 클릭률에 대한 데이타셋을 분석하나요?
광고의 클릭률과 인구통계학적 데이터셋에 관심을 가진 이유는 위클리 과제 '트로스트' 때문입니다. 트로스트는 비대면 심리상담 연결 플랫폼입니다. 저는 사람들이 '심리상담'의 경험해보지 못해서 그 가치를 잘 모른다고 생각합니다. 한국에선 가정이나 초,중,고등학교에서 전문적인 심리상담에 준하는 경험을 받는 경우가 많지는 않다고 생각하기 때문입니다.
따라서 '간접경험'의 '광고겸 콘텐츠화'가 중요하다고 생각합니다. 유튜브에서 오은영 박사님영상 보듯이 무료 사용자들이 트로스트 심리상담 콘텐츠로 간접경험을 많이 한다면 심리상담 구매률이 늘것이라 생각합니다.
결국 중요한 건 콘텐츠겸 광고인 비대면 심리상담 영상들의 클릭률입니다. 또한 누가 클릭을 했는지도 중요합니다. 무료 사용자들 중에서 누가 진짜 비대면 심리상담 욕구가 있는지 알아내는 것은 중요하기 때문입니다. 그들은 기본 타겟이 됩니다. 콘텐츠 재방문률, 유료서비스 구매율도 중요합니다.
요번 과제를 통해 광고CTA는 얼마나 클릭되는지, 누가 클릭 하는지 데이터셋으로 연습합니다. 하지만 아쉽게도 본 광고 클릭률 데이터에서 재방문률, 구매율 관련 데이터는 없습니다. 또한 진짜 광고에 대한 진짜 데이터 같지는 않습니다.
Kaggle의 데이터 출처 페이지
2.본 데이타에서 어떤 가설을 생각해 볼 수 있고, 검증할 수 있나요?
구글 스프레드 시트
위 시트에 purchased=광고 클릭 여부 라고 하네요. 0이면 클릭 안한 것이고, 1이면 클릭 한 것이랍니다. 400명의 데이터입니다. 사실 진짜 광고에 대한 데이타이면 재밌겠지만, 그냥 데이타셋 모델인 것 같습니다. 간단한 가설설정과 이 가설을 데이터로 검증 가능한지, 시각화는 어떻게 할 수 있는지에 중점을 두겠습니다.
(1)가설1 : 광고 클릭을 한사람은 5%다?
0이면 안 클릭, 1이면 클릭
400명 중에서 클릭한 사람이 무려 3분의 1정도는 되보이네요. 400명 중 143명이 클릭했습니다. 35%가 클릭했습니다.그러므로 가설은 틀렸습니다. 제가 트로스트 PM이되어, CTA를 만들어 이런 클릭률이 나온다면 기분좋은 비명을 지를 것 같습니다.
(2)가설2 : 20~30대 젊은 층보다 40~50대 중년층의 클릭율이 더 높을 것이다.
아래 빨간 표시가 클릭여부
빨간 클릭표시가 집중적으로 된 부분은 50대에 근접하거나 30대 후반에서 50대 정도가 많았습니다. 따라서 가설은 옳았습니다.
(3)가설3: 남녀 중 클릭을 더 많이 한 비중이 여자가 더 높을 것이다.
여성과 남자의 수는 204명 대 196으로 거의 같습니다. 51% 49%입니다. 그러나 오른쪽 클릭한 사람을 보면 남자 66 여성 77명입니다. 여자가 남자보다 15% 정도 더 많이 클릭했습니다. 따라서 가설은 옳습니다.
(4)가설4: 가설2에서 중년층이 청년층보다 더 많이 클릭했다면, 그건 월급이 더 많아서 그런 것일까?
아래에 이렇게 나이별 소득분포 그래프를 볼 수 있습니다. 저는 이게 현실성 있는 데이터인가 궁금합니다. 고객들의 소득을 어떻게 파악할 수 있다는 걸까요?특정 국가의 남자 여자의 나이별 평균 월급을 바탕으로 계산할 걸까요? 시트를 확인해보겠습니다.
성별, 나이, 월급 데이타
같은 18세 남자라도 월급차이가 많이 나네요... 그냥 확실히 가짜 데이터입니다. 가설4는 그냥 말이 안됨으로 없던 걸로 하겠습니다.