2013. 11. 6. 18:49

SNS에 사용된 단어로 사용자 성별 구분 가능

□ 요약

○ 미국의 대학 연구팀이 페이스북에 사용된 단어들을 분석해 해당 사용자의 나이, 성별, 성격 등을 판별하는 데 높은 성과를 보였으며, 이를 통해 연구팀은 단어들 사이의 관계 및 언어와 성격 사이의 관계를 분석하는 데 새로운 통찰력을 얻음

□ 주요 내용

○ 페이스북 이용자들이 사용하는 단어를 기초로 해당 사용자의 성별을 92%의 확률로 판단할 수 있다는 연구 결과가 발표됨

- 펜실베니아 대학의 심리학과 컴퓨터 과학 연구원들은 7만5,000명의 지원자를 대상으로 성격에 관한 설문조사를 실시함

- 연구원들은 페이스북 페이지에 사용된 7억 개 이상의 단어와 문구에서 언어 패턴을 분석하고, 이를 바탕으로 사용자의 나이, 성별, 성격을 추정하는 컴퓨터 모델을 개발함

- PLOS ONE 저널의 발표에 따르면, 성별을 구분하는 것은 거의 정확했고 나이 판별은 50%의 정확도를 나타냈으며 오차가 발생하더라도 3년 이내의 차이로 나이를 구분함

- 성격 추출은 정확도가 약간 떨어지지만, 사람들이 사전에 답변했던 내용을 토대로 특정 질문에 대해 사용자가 답변할 내용을 예상하는 정도의 정확도를 보임

○ 연구원들은 이 연구에 ‘개방형 어휘 기술(open-vocabulary technique)’을 사용해 이와 같은 높은 성과를 얻었다고 설명함

- 개방형 어휘 기술은 중요한 단어나 문구의 빈도를 명확하게 보여줌

- 이 기술은 7억 개 이상의 단어와 문구를 분석해 풍부하고 섬세하게 사용자의 패턴을 발견할 수 있는 장점이 있음

기술동향사진

○ 이번 연구의 또 다른 성공 요소는 대량의 데이터를 수용할 수 있는 용량으로, 이를 통해 연령, 성별, 개인별 특성을 포함해 성격 요소 주의에 몰려 있는 단어와 문구를 격리해 분석에 도움을 줌

- 연구팀은 성격분류 연구에 일반적으로 사용되는 ‘빅 파이브(Big Five)’ 틀을 사용했는데, 빅 파이브는 인간의 성격을 ‘외향성, 협조성, 근면성, 정서적 불안정성, 경험에 대한 개방성’이라는 5가지 요소로 분류함

- 성격적 특성들과 관련된 언어는 워드 클라우드(word cloud) 형태로 정리돼 큰 문자일수록 그 특징에 강한 상관관계가 있다는 것을 나타냄

- 워드 클라우드는 연구원들이 단어들 사이의 관계, 언어와 성격 사이의 관계에 대해 새로운 통찰력을 얻을 수 있도록 해줌

- 연구팀은 이번 연구가 향후 사람들에게 설문조사 항목을 채우게 하는 것이 아니라, 연구를 위해 자신들의 소셜미디어 피드를 익명으로 제출할 수 있게 하는 모델이 될 것으로 기대.