- 소셜 미디어 시대 사회진단 기법 현황

송길영 다음소프트 부사장


국내 트위터 가입자 수는 2010년 1월 25만 명에서 12월 227만 5,700명으로 1년간 약 8.8배가 늘었다. 또 사용자들이 트위터에 올린 트위트는 1월 약 190만 건에서 12월 약 6,500만 건으로 34배 정도 증가했다. 트위트 수는 월평균 25%씩 꾸준히 상승했다. 분기별 트위트 수도 4분기가 3분기에 비해 73.8% 많은 것으로 조사됐다. 2011년 6월 현재 한국에서 작성되는 트위트는 매일 500만 개 이상이다. 한 달에 1억 5,000만 개 이상의 트위트가 생성되고 있다.


소셜 네트워크는 커뮤니케이션 바꿔

골드만삭스가 500억 달러에 투자한 페이스북이 불과 1년 만에 1,000억 달러로 평가되고 있고 70억 달러에 IPO를 한 링크드인이 두 번째 닷컴버블 논란을 보이고 있다.

십수 년 전 처음 인터넷과 웹이 보급되던 시기의 커뮤니케이션은 정보 제공자와 수용자가 분리된 기존의 커뮤니케이션 메커니즘과 별로 다를 바가 없었다.

그 당시의 인터넷 미디어란 가장 빠른 웹서버를 보유한 조선일보나 중앙일보 등의 미디어가 정보를 생산하고, 독자는 신문을 구독하지 않고도 기사를 볼 수 있는 편리한 채널이 생성된 것에 불과했다. 이에 독자는 자신의 의견을 댓글이라는 형태로 표출했지만, 글 생성 주체의 익명성과 실체에 대한 의문으로 신뢰도와 중요도가 폄하됐다. 따라서 댓글에 대한 영향력은 그리 크지 않았다.

또한 이 당시 웹상의 수용자 생성 정보는 정보 제공자가 설정한 의제에 대한 의견에 한정됐으며, 정보의 축적 역시 익명성에 기초를 둔 주제별 의견으로 분할됐다.

그러던 것이 2000년대 들어 웹 2.0의 도래와 더불어 참여・공유・개방의 기치 아래 시스템과 서비스에 대한 투자 없이 누구나 자신의 의견을 표출할 수 있는 창구가 만들어졌다. 이어 사회적 네트워크를 사이버공간에 구성할 수 있는 소셜 네트워크 서비스들이 점차 개발됨에 따라 정보 생성이 목적이 아닌, 관계의 유지를 위한 자발적인 정보 생산의 기초가 만들어지게 됐다.

또한 인터넷 광고 시장의 확대에 따라 정보 생산자에 대한 보상 시스템이 제공되자 인터넷 공간의 모든 정보가 자산으로 인식되기 시작했다. 정보 생산자는 생산된 정보에 대한 소유권을 주장하게 됐다. 이로 말미암아 정보 생산자가 직접 자신이 생산한 정보를 축적 관리하는 체계로 진화하게 됐다. 네트워크상 정보 생산자에 대한 확실성은 정보 신뢰도에 대한 균형으로 선순환될 수 있게 됐다.

이러한 소셜 네트워크 서비스들이 기존 웹(소위 웹 1.0)상의 서비스들과 구분되는 몇 가지 특징은 다음과 같다.

1) 익명성의 한계 극복
2) 특정한 목적에 제한되지 않고 일상에 대해 다양하게 기록
3) 네 트워크상 각 구성원 간의 상호작용 정보 추적 가능


이에 따라 기존 서비스가 정보가 중심이 되는 서비스였다면 이제는 사람이 서비스의 중심이 되는 현상이 점차 널리 확대되고 있다고 볼 수 있다.

2011년 3월 컴퓨터과학저널(Journal of Computational Science)에 실린 ‘Twitter mood predicts stock market’이라는 논문에 따르면 트위터에서 추출한 집단적 정서 상태가 다우존스지수와 관련돼 있어서 87.6%의 정확도로 다우존스지수(장 마감지수) 예측이 가능하다고 한다.


국가별 행복지수는 페이스북에서 확인할 수 있다. http://apps.facebook.com/gnh_index.


소셜 미디어는 어떻게 사회를 반영하나

실제로 런던 소재 더웬트 캐피털 마케츠는 매일 1억 개가 넘는 트위트 정보를 이용해 투자하는 ‘더웬트 앱설루트 리턴 펀드’를 판매해 2,500만 파운드 이상의 자금을 운용하기도 했다.

주식시장이 집단의 정서 상태와 관련돼 변화한다는 것은 집단적 정서가 투자에 영향을 끼치는 중요한 요소라는 것을 말한다. 이는 이제 우리가 사회구성원의 행동을 예측하기 위해 소셜 네트워크 정보를 활용할 수 있음을 보여 준다.

한 발 더 나아가 소셜 네트워크가 미디어로 확장될 수 있는지에 대한 연구도 활발히 진행되고 있다.

미국 하버드대학 교수인 사회학자 니컬러스 크리스태키스와 캘리포니아대학의 정치학자 제임스 파울러는 저서 ‘Connected’(국내에서는 ‘행복은 전염된다’로 소개)에서 3단계 거리 안에 있는 사람들(1단계 - 친구, 2단계 - 친구의 친구, 3단계 - 친구의 친구의 친구)로부터 우리는 직접적 영향을 받는다고 설명한다. 저자의 분석에 따르면 친구가 행복할 경우 당사자가 행복할 확률이 15% 올라갔으며, 2단계 경우 효과는 10%, 3단계 경우는 6%의 영향으로 행복이 전염된다고 한다.




수년간 축적된 자료 덕분에 분석 가능

이러한 감정의 전파에 관한 연구를 애덤 크라머는 영어 사용자 100만 명과 그의 친구 1억 5,000만 명이 페이스북상의 상태 정보에 올린 글로 증명했다. 페이스북 이용자들이 ‘thanks’, ‘wonderful’, ‘cute’, ‘sunshine’ 등과 같은 긍정적인 표현이나 ‘angry’, ‘worst’, ‘sucks’와 같은 부정적인 표현을 상태 정보에 기술하면, 이후 최장 3일까지 친구들은 유사한 감정을 표현한다고 한다(크라머는 국가별 행복지수도 발표했는데 이는 http://apps.facebook.com/gnh_index/에서 확인할 수 있다).

불특정 다수를 통해 유입된 정보에 의해 영향을 받기보다 이미 신뢰 관계가 구축된 지인 및 준거집단을 통해 정보와 감정은 더욱 빠르게 전이된다. 이는 타인의 생각을 바꾸는 데 큰 역할을 수행하고 있다. 이러한 기능은 기존 미디어의 역할과 다르지 않으므로 최근 소셜 네트워크를 소셜 미디어로 재정의하는 이유로 자리 잡게 됐다.

이러한 소셜 미디어의 내용과 의미를 분석하고자 하는 시도는 자연언어처리(Natural Language Processing) 기법을 기반으로 연구되며, 이는 전산언어학(Computational Linguistics)이라는 학문을 기반으로 한다. 지금까지 전산언어학의 연구 영역은 지능형 질의 응답 시스템, 대용량 정보검색 시스템, 로보틱스에서의 인터페이스, 전문가 시스템 등 인간과 정보의 상
호작용 분야에 주로 집중돼 왔으나, 최근 들어 웹 혹은 모바일 기반의 수많은 자연언어 정보의 이해를 통해 의견을 정량화하는 오피니언 마이닝(Opinion Mining) 분야에 많은 관심이 모아지고 있다.

의견의 정량화는 참과 거짓을 가리는 것이 아니라 각자의 주관에 의한 평가를 객관적인 지표로 이해하고자 하는 시도를 말한다.

예를 들어 “누가 미국의 첫 번째 대통령인가”라는 질문에 대한 답은 수백만 개의 문서에 기술돼 있을 수 있으나, 굳이 그 많은 문서들을 일일이 살펴볼 필요가 없이 처음 문서를 읽는 것만으로도 문제에 대한 답을 구할 수 있다(그 문서가 거짓을 말하고 있지 않다는 가정이 필요하지만 좋은 검색 엔진에서는 그 문서의 유효성을 다양한 방법을 통해 검증하는 랭킹 기법을 제공하고 있다).

하지만 “우리나라에서 가장 인기 있는 가수는 누구인가”라는 질문의 답은 이 주제에 대해 말하고 있는 수백만 개의 문서를 참조해 대중의 관심과 선호를 수치화한 뒤 답할 수 있다.


사람들 관심의 무의식적 변화 반영

이렇듯 주관적인 평가를 정량화하기 위해 오피니언 마이닝 기법이 필수적으로 요구된다. 이는 텍스트를 분석하는 텍스트 마이닝 기술을 이용해 구현할 수 있다. 이러한 기법을 수년간 축적된 소셜 미디어 자료에 적용해 분석하면 우리 사회의 점진적인 움직임을 확인해 볼 수 있다.

데이터 마이닝을 통해 어떻게 사회의 흐름을 바라볼 수 있는지 사례를 통해 좀 더 생생하게 이해해 보자. 최근 다음소프트에서는 사람들의 라이프스타일을 이해하고자 하는 스터디를 계속 진행해 왔다. 전수의 블로그 문서를 대상으로 분석한 이 프로젝트는 먼저 우리의 일상적 관심 영역을 분류하고1), 해당 영역에 포함되는 키워드들의 발현과 그 변화를 관찰해 사회를 이해하고자 하는 시도이다.

보통 각 영역의 최상위 발현 키워드들은 카테고리를 대표하는 일반명사들이 오랜 기간 안정적으로 차지한다. ‘Active Culturing’ 영역의 경우 ‘사진’, ‘여행’, ‘촬영’이 3년간 변함없이 발현 순위 1~3위를 유지하고 있다. 그렇다고 우리 일상생활에서 사진 촬영이 여행에 대한 관심을 압도한다는 것을 의미한다고 볼 수는 없다. 그러나 ‘사진’에 대한 단위 문서당 발현율이 점차 떨어지고, ‘여행’은 그 반대의 흐름을 보인다면, 우리는 조심스럽게 사람들의 관심사 변동을 파악하고, 더 나아가 사람들이 앞으로 어떠한 문화행위에 관심을 가지게 될 것인지 예견해 볼 수 있다.

‘Eating & Drinking’ 영역에서 흥미로운 변화 중 하나는 2009년 4월을 기점으로 ‘카페’의 발현이 ‘술’의 발현을 추월한 것이다.

키워드 발현의 변화는 사람들의 인식과 관심의 의식적·무의식적 변화를 반영한다. 특히 약 2억 건에 달하는 방대한 양의 데이터를 정량적으로 분석했을때도 유의미한 변화가 감지되기 위해서는 집단 전체의 관심이 경향적으로 이동해야만 한다.

두 키워드의 발현 변화는 우리에게 다음의 질문들을 자연스럽게 떠오르게 한다. ‘카페’의 어떤 요인이 우리의 관심과 흥미를 촉발했을까. 그리고 ‘카페’에 대해 우리가 원하는 것 역시 변하고 있지는 않을까.


카페와 관련된 감성 키워드 순위 변동

키워드의 연관어 변화를 살펴봄으로써 우리는 이러한 궁금증을 어느 정도 해소할 수 있다. 다음은 3년 간 ‘카페’와 연관돼 발현되는 감성 어휘의 순위 변화를 6개월 단위로 살펴본 것이다.
사람들이 ‘카페’에 대해 이야기하면서 가장 많이 표현하는 감성은 ‘좋다’와 ‘예쁘다’2)이다. 카페를 좋아하는 사람들의 심리는 미각(味覺)적인 것으로만 한정할 수 없는, 시각(視覺)을 포함한 공감각적 욕망인 것이다. 이는 2008년 상반기에 연관 감성어 순위에서 두 번째로 높았던 ‘푸짐하다’가 사라지는 것에서도 확인할 수 있다. 카페에서 사람들이 원하는 감성은 제공받는 재화에 대한 만족 여부를 넘어서는 총체적인 욕망이다.

다른 한편 2008년 10위권에 있던 ‘유명하다’는 감성은 17위까지 떨어졌다. 대신에 ‘조용하다’, ‘편하다’는 감성은 각각 10계단, 50계단 이상 급격히 상승하는 것을 볼 수 있다. 2008년에 사람들은 사람들 입에 오르내리는 ‘유명한’ 카페를 찾고 이에 대해 이야기했다. 하지만 현재는 유명한 카페보다는 ‘조용’하고, ‘편한’ 카페를 더 많이 이야기한다. 조용함과 편함이라는 감성적 요소가 2010년에 이르러 사람들이 카페에 대해 추구하는 중요한 평가 요소로 올라선 것이다.

이제 ‘유명한’ 프랜차이즈 카페들은 시장 내에서의 치열한 경쟁 압박과 동시에 사람들의 선호 변화에도 대응해야만 하게 된 것이다.



소셜 네트워크 역할 갈수록 커져

사람들의 욕망은 변화한다. 각기 다른 곳으로 산발적으로 변화한다기보다는 상호 간 영향을 주고받으며 어떠한 경향을 형성하게 되는데, 이를 우리는 ‘트렌드’라고 부를 수 있을 것이다. 향후 카페에 대한 기존의 욕구는 점차 사라지게 되고, 새로운 욕구가 형성될 수도 있다. 그러나 그 흐름은 갑작스레 등장하지 않는다. 발현의 의미조차 미미했던 ‘편한 카페’에 대한 작은 욕구가 점차 커져 갔듯 지금 이 순간에도 소셜 미디어에 적혀지는 수많은 글들 속에 우리가 예측할 수 있는 다음번의 트렌드가 숨어있지는 않을까. 왜냐하면 필자가 글을 쓰고 있는 이
순간에도 수많은 사람들이 소셜 미디어에서 무언가에 대해 읽고 있으며, 이를 퍼 나르고, 자신의 생각을 피력하면서 서로 영향력을 행사하고 있기 때문이다.

우리는 소셜 미디어 시대 키워드 분석을 통해 사회의 흐름을 진단할 수 있는 기법을 보유할 수 있게 됐다. 현대사회의 구성원들은 타의에 의해서가 아니라 자발적으로 자신의 생각과 그간의 관계를 알려주려 하며 이를 공유하고자 한다. 장기간에 걸친 무수한 정보의 축적과 이 정보 분석이 가능해졌기 때문에 현재를 살고 있는 우리들에게 미디어 측면에서의 소셜 네트워크는 점차 역할이 커지고 있다. 이 시점에서 우리에게 필요한 것은 ‘소셜 네트워크를 기존 미디어와 어떤 방식으로 결합시켜 이해할 것이냐’와 ‘이 두 가지를 어떻게 공존시킬 것이냐’이다. 이것이 우리가 소셜 네트워크를 한층 더 깊게 이해하는 길이 아닐까.


<주>

1) 의(Beauty & fashion), 식(Eating & Drinking), 주(Living & Housing)와 두 가지 문화영역(Active & Inactive Culturing), 기술(Technology) 등 여섯 영역이 뼈대가 되는 분류체계이다. 각 카테고리는 일반명사(식문화의 경우 ‘밥’, ‘라면’ 등)와 고유명사(‘CJ햇반’, ‘안성탕면’), 영역의 고유한 행위(요리하다, 먹다, 마시다), 기타 관련어들(외식, 도시락, 다이어트, 유기농)의 세트로 이루어진다.
2) 감성어 ‘예쁘다’의 발현은 “이 카페, 예쁘다”, “예쁜 카페에 왔다”등 형용사의 모든 변화를 포괄한다.
Posted by inhana

댓글을 달아 주세요