본문 바로가기

심리학

빅데이터와 심리학. 연관 관계는?

반응형

빅데이터와 심리학

최근 가스라이팅, MBTI와 같은 심리 관련 키워드가 많이 사용되면서 심리학에 대한 관심이 전보다 많아지는 것 같다.
그리고 Chat GPT와 같은 인공지능 AI가 활성화되는 것을 보면서 AI와 심리학은 어떻게 연관될 수 있을까 하는 궁금증이 생겼다.

이런 궁금증으로 심리학 논문을 찾아보던 중 아래 논문을 찾게 되었다.

빅데이터를 이용한 심리학 연구 방법


현재까지 빅데이터를 이용한 분석은 학술적 연구보다는 소비자 분석과 예측 같은 산업 장면에서 많이 사용되고 있다. 어떤 사람이 어떤 상품을 구매할 것인지, 어떤 영화를 좋아하는지, 혹은 어떤 사람이 신용카드 연체를 할 것인지에 대해 예측을 하는 데 사용된다. 반면, 학문적인 영역에서 빅데이터의 이용은 상대적으로 그리 활발하지 않다. 심리학 연구에서 빅데이터를 사용한 연구의 예로는 사회망 서비스(SNS)에 기록된 사람들을 활동을 이용하여 성격특성을 파악한 연구(Kosinski, Matz, Gosling, Popov, & Stillwell, 2015; Kosinski, Wang, Lakkaraju, & Leskovec, 2016)와 휴대전화에 저장된 행동 자료(앱 사용 비율, 전화, 문자사용 등)와 인터넷 중독 간의 관계를 연구(Markowetz 등, 2014) 등을 들 수 있다. 그러나 심리학에서의 빅데이터의 이용은 다른 사회과학에 비해서도 지극히 느린 편이다(Cheung & Jak, 2016; Moustafa et al, 2018).


심리학에서 빅데이터에 의한 연구가 잘 이루어지지 않는 가장 큰 이유는 심리학의 연구방법론이 빅데이터의 분석과는 다르기 때문일 것이다. 빅데이터 분석은 사람의 행동을 예측하는 데 매우 유용하지만, 사람들이 그 행동을 산출하는 과정을 설명하는 데에는 그리 큰 도움을 주지 못한다. 심리학에서는 자료의 예측보다는 사람의 심리구조나 과정에 대하여 이해하는 것을 더 중요시하는데, 빅데이터 분석법에서는 이러한 과정이 대부분은 암흑 상자로 남아있다.


빅데이터 혹은 자료과학에서는 “자료가 스스로 말하게 하라(Let the Data Speak for Themselves)”라고 주장한다. 즉 이론이나 모형을 먼저 설정하고 자료에 의해 검증하는 방식으로 연구를 진행하는 것이 굳이 필요하지 않으며, 자료에 나타난 규칙적인 패턴들을 기술하기만 해도 자연현상이나 사회현상을 잘 설명할 수 있다고 주장한다. 매우 설득력 있는 말로 들리지만, 이것의 가능성에 대해서는 다음과 같은 이유에서 회의적이다. 첫째, 어떤 자료를 선택하고 그 자료에서 어떤 변수를 분석하며 어떻게 분석하는지를 결정하는 것은 연구자이다. 연구자는 이러한 과정에서 자신의 외현적 내현적 이론을 형성하고 이에 따라 분석을 진행하게 된다. 겉으로 보기에는 이론이 없는 것처럼 보이지만, 명시화되지 않고 남에게 공포하지 않는 자신의 이론이 있는 것이다. 둘째, 주어진 자료에 근거해서 어떤 현상을 설명하고자 할 것인데, 이때에도 자신의 이론이 개입되게 된다. 자료 분석에서 개인의 주관적 개입 없이 분석되는 것은 불가능한 일이다. 이론을 명세화하고 공포한 다음 검증하는 것과 자료 분석의 결과를 미리 본 다음 공포되지 않은 자신의 이론에 의하여 자료를 설명하는 것 중 어느 것이 더 타당한지는 명약관화한 일이다. 셋째, 자료에 근거한 설명을 하면 체계적인 반복 검증을 할 수 없다. 동일한 자료가 수집되어 동일한 현상을 다시 발견할 수도 있지만, 연구자의 체계적인 설계에 따라 동일한 조건에서 반복 검증하기는 힘들다. 이는 현재의 자료에 의해 내린 결론을 반증할 수 있는 자료를 얻는 것이 불가능함을 의미한다. 반증할 수 없는 사실을 과학적 결과로 받아들일 수는 없는 일이다(Popper, 1959). 자료에 근거한 예측이 잘못된 결론을 유도하는 사례로 다음을 들 수 있다. 2014년에 프린스턴의 연구자들은 빅데이터를 분석한 결과에 근거하여 페이스북 사용자가 2017년에 현재의 20%로 줄어들 것이라는 예측을 하였다. 이들에 의하면 질병의 확산을 다루는 역학 모형을 사회망 연구에 적용하여 페이스북의 이용이 현재 정점에 도달하여 쇠퇴하는 국면으로 들어갔다고 주장하였다. 이를 반박하기 위하여 페이스북 연구자들은 동일한 기법을 사용하여 프린스턴 학생의 등록률을 예측하였다. 결과는 2018년이 되면 프린스턴 학생의 등록률이 절반으로 줄고, 2021년이 되면 한 명도 등록하지 않을 것으로 예측하였다(Griggs, 2014).


이 사례는 이론적 근거나 영역 전문가의 전문지식에 의하여 설계된 자료수집이 아닐 경우 자료 자체가 정확한 결론에 곧장 도달하게 하지 않는다는 것을 단적으로 보여준다. 흥미롭게도 프린스턴에 대한 구글의 반박도 심리학의 연구방법론의 입장에서 보면 적절하지 않은 것이다. 페이스북에 대한 프린스턴의 예측이 잘못된 것을 직접적으로 증명한 것이 아니다. 심리학자라면, 프린스턴 연구의 가정이나, 방법론, 결과의 해석에 대하여 비판하고 프린스턴의 학생들이 줄어들지 않을 것이라는 가설이나 모형을 검증해야 할 것이다. 현재의 자료 패턴은 프린스턴의 모형이 잘 설명할 수 있지만, 미래의 예측은 다르다는 것을 보여주어야 할 것이다. 페이스북 연구팀이 말할 수 있는 것은 자료에 근거한 프린스턴 연구팀의 분석이 잘못될 수 있다는 것뿐이다. 물론 위의 논쟁은 학계에서 이루어진 일은 아니지만, 소위 빅데이터 혹은 자료과학의 대표적인 행태를 보여주고 있는 것으로 보인다. 즉 자료를 분석하여 영역에 대한 전문지식 없이 상식적인 수준에서 현상을 기술하고 있다.

 


김청택. (2019). 빅데이터를 이용한 심리학 연구 방법. 한국심리학회지: 일반, 38(4), 523-525, https://doi.org/10.22257/kjp.2019.12.38.4.519

반응형