신문 어휘를 통해 본 한국 사회 추이 분석

김일환 고려대 민족문화연구원 연구교수


신문은 사회를 반영하는 거울이자 축도(縮圖)이다. 매일 발행되는 신문 속에는 그 시기의 주요 관심사와 사건 등이 모두 망라되어 있기 때문이다. 고려대학교 민족문화연구원에서는 지난 1월 20일 신문을 대상으로 2000년대 초반 한국 사회의 변화 추이를 분석한 연구 성과를 발표했다. 이번 연구에는 조선일보, 동아일보, 중앙일보, 그리고 한겨레신문의 2000~2009년 10년 치 신문 기사를 모두 포함하였는데 어절 수로는 모두 약 4억 어절에 이른다. 이는 장편소설 약 8,000권에 해당하는 방대한 양일 뿐 아니라 일반명사만 하더라도 대사전 표제어 명사의 약 두 배에 달하는 어휘 자원의 보고라 할 만하다. 고려대 민족문화연구원에서는 그동안 축적한 언어 처리 기술과 분석 능력을 토대로 10년 치 신문 기사 전체에 대한 자동 형태소 분석, 키워드 추출과 통계적 검증 등을 활용하였으며 이번 성과 발표는 그 결과의 일단(一端)을 보여 주는 것이다.

민족문화연구원에서는 먼저 빈도를 기준으로 분야별 키워드를 선정하였다. 정치, 사회, 일상생활, 문화 소비, 건강 등 다섯 분야에서 선정된 키워드의 연도별 사용 빈도가 어떻게 변화하는지 살폈는데, 키워드뿐 아니라 관련어의 변화도 함께 고려했다.

4억 어절에 달하는 신문 기사 기반

여기서 ‘관련어’는 키워드와 한 문단 내에서 함께 출현한 단어를 말하는 것으로, 키워드와 한 문단에서 같이 출현하는 단어일수록 키워드와의 관련성이 높다는 전제하에 도입된 개념이다. 이는 키워드만 가지고 분석할 경우 간과하기 쉬운 다양한 문맥적 상황을 고려하기 위해 고안된 것으로 키워드와 관련어의 변화 양상을 함께 고려함으로써 키워드의 변화 양상을 보다 다각적으로 관찰할 수 있도록 하였다. 또한 키워드와 우연히 함께 출현하는 단어들을 배제하기 위해 통계적 검증 방법의 일환인 T-점수를 적용하였다.

먼저 고유명사와 일반명사 가운데 증감의 변화가 큰 명사를 살펴보았는데 고유명사에서는 ‘김연아’가 가장 높은 증가 정도를 보였다(10년간 약 600배). 그 다음으로는 ‘이명박(450배), 박주영(200배), 박태환(50배)’ 등이 뒤를 이었다. 한편 일반명사에서는 생활 분야에서 ‘여가, 건강, 음식, 자동차’에 대한 관심이 급증하였는데, 특히 직업 면에서는 ‘요리사, 건축가, 디자이너’, 음식 면에서는 ‘막걸리, 한식, 와인, 삼겹살’, 능력 면에서는 ‘사고력, 리더십’ 등이 주목받았다. 인터넷과 관련해서는 ‘메일’과 ‘채팅’이 꾸준히 관심에서 멀어져 갔고 대신 ‘블로그(400배), 댓글(180배)’에 대한 관심이 급증하였다. 한편 ‘행복’의 빈도도 크게 증가하였는데 이는 행복에 대한 사회적 관심의 반영일 뿐 우리가 실제로 행복해졌음을 의미하는 것은 아니다.

고유명사는 단연 김연아

사회문제와 관련한 키워드로는 ‘양극화’가 주목을 받았다. ‘양극화’는 중산층의 붕괴와 함께 2000년대에 우리 사회가 직면한 심각한 문제라는 점은 누구나 공감할 수 있다. 이 연구에서는 이 ‘양극화’의 빈도가 2006년을 정점으로 급증하였다가 다시 이후 급감하는 특이한 양상을 보인다는 점을 보여 주고 있다. 한편 ‘양극화’와 함께 자주 나타나는 관련어도 2006년을 기준으로 큰 변화를 보이고 있어 <그림1> 2006년은 양극화 문제를 다루는 데 중요한 해임이 다시 한번 드러난다. ‘가난’과 ‘빈곤’은 의미상으로 유사하지만 관련어의 양상은 다르게 나타난다. 특히 2004년에 두 단어는 빈도가 급증한다는 점에서 특징적인 패턴을 보인다. ‘가난’의 주요 관련어로는 ‘대물림, 평생, 교육’ 등이 포함되며, ‘빈곤’의 경우에는 ‘사회, 문제, 퇴치, 소득’ 등이 나타난다. 이는 ‘가난’과 ‘빈곤’을 대하는 우리 사회의 관심 차이를 잘 반영해 준다고 볼 수 있다. 특히 ‘가난’의 관련어로는 잘 나타나지 않았던 ‘복지, 지원, 정책, 보장’ 등의 단어가 ‘빈곤’에서는 주요 관련어로 등장한다는 점, 그 가운데 기부의 관련성이 2000년대 후반에 크게 증가한다는 점이 특징적이라고 하겠다.



그렇다면 우리 사회는 ‘가난’에 대해 어떤 대책이나 제도를 마련하고 있는가? 흥미롭게도 ‘가난’의 주요 관련어 상위 100개 안에는 지원이나 정책 등과 관련된 단어가 거의 나타나지 않는다. 대신 ‘가난’의 관련어에는 일견 가난과 무관해 보이는 단어들이 많이 나타난다. 이러한 주요 관련어에는 ‘사랑, 꿈, 희망, 행복’이 포함된다<그림2>. 이들은 가난에 대한 관심이 가장 높았던 2004년에 여전히 가장 높은 관련성을 보이고 있어 ‘가난’할수록 현실에서 탈피하거나 그 안에서 만족하려는 경향이 있음을 보여 준다고 해석할 수도 있다. 가난과 더 유의미한 관계를 보일 것으로 기대되는 ‘고통’조차도 이들보다 관련도가 그리 높지 않다는 점에서 이러한 해석은 의미가 있어 보인다.



소외 문제는 우리 사회에서 여전히 해결해야 할 시급한 문제임이 틀림없다. ‘소외’가 2000년 초반부터 지속적으로 사용 빈도가 증가하고 있다는 점도 이에 대한 사회의 높은 관심을 보여 준다. ‘소외’와 가장 높은 관련을 보이는 단어로는 ‘이웃’과 ‘장애인’이 뽑혔다. 이들은 2000년대 전체에 걸쳐 높은 관심을 보여 주고 있다. ‘노인, 여성, 노동자, 청소년’ 등도 소외의 주요 관련어에 포함되었다. 2000년대 후반에 들어서면서는 ‘공부방, 전달, 소액, 연탄, 배달, 독거노인’ 등에 대한 관심이 크게 증가하였다. 이들은 2000년대 초반에는 ‘소외’와는 거의 관련이 없는 단어들이었다는 점에서 주목된다.

자살의 관련어에는 가족 구성원과 관련된 단어가 많이 포함되어 있다. 2003년에는 ‘가족’과 ‘부모’가 자살의 주요 관련어로서 관련성이 크게 높아졌으며 ‘노인, 여배우’도 높은 증가 추세를 보이고 있다는 특징이 나타난다. 또한 ‘청소년’은 2006년을 제외하고는 자살과 관련한 사람 관련 명사 중 가장 높은 관련성을 보인다는 점에서 ‘청소년’과 자살에 대한 높은 사회적 관심을 유추해 볼 수 있다. 자살의 계층 관련어로는 2003년 ‘빈곤층’과 ‘서민’의 관련성이 크게 높아졌으며 2006년에는 ‘중산층, 부유층, 빈곤층’의 관련성이 두드러진다. 한편 자살의 원인과 관련한 단어의 추이도 변화를 보이는데, ‘우울증’은 2000년 전체에서 가장 높은 관련성을 보이는 단어였다. 단 2004년에는 ‘빚’이 ‘우울증’을 누르고 가장 높은 관련을 보였다. 그 후 ‘빚’은 점점 관련성이 낮아지다가 2005년 이후부터는 ‘스트레스’가 더 높은 관련을 보이고 있다. 이는 자살의 주된 요인 가운데 경제적인 요인이 줄어들고 정신적인 요인이 점점 늘어나고 있다고 해석할 수 있을 것이다.

정치 분야에서는 ‘보수’ 줄고 ‘중도’ 늘어

정치 분야에서는 25개의 키워드를 선정하고(<표>) 이들이 ‘진보, 보수, 중도’와 출현하는 양상을 살폈다. 먼저 ‘정치’의 관련어로는 ‘중도’의 약진이 두드러진다. 즉 ‘중도’가 2000년대 초반에는 ‘정치’와 함께 거의 쓰이지 않다가 2000년대 중반 이후 관련성이 크게 증가한다는 것이다. 2000년대 초반에는 주로 ‘진보’와 ‘보수’가 수위를 다투었으나 2000년대 후반 ‘중도’의 등장과 함께 전체적인 판도에 큰 변화가 나타난 것으로 보인다. 한편 2000년대 중반 이후부터는 ‘신자유주의’, ‘실용주의’에 대한 관심이 크게 증가한 반면 ‘지역감정’, ‘지역주의’, ‘권위주의’에 대한 관심은 감소하였다. 또한 ‘서민, 소통, 선진화’에 대한 관심은 높아진 반면 ‘개혁, 부정부패, 당리당략’에 대한 관심은 감소한 것으로 나타났다. 주목할 만한 것으로는 ‘교수’가 정치 관련어 중 가장 높은 증가 양상을 보인다는 것, 그리고 ‘개혁’이 큰 폭으로 감소했다는 점을 들 수 있다.


2000년대 일상생활의 변화 양상도 살펴보았다. ‘술’과 관련한 주요 단어로는 ‘소주, 와인, 맥주, 막걸리, 위스키, 전통주’ 등이 포함되었는데 이 중 ‘와인’이 대한 관심이 가장 크게 증가하였다. ‘막걸리’는 2007년을 기준으로 관심도가 폭증하는 양상을 보였다. 특히 ‘와인’은 ‘수입’이 , ‘막걸리’는 ‘일본, 수출’ 등이 주요 관련어로 나타난다는 점에서, 와인의 경우 국내 소비가 증가하였고, 막걸리는 한류 등의 영향으로 해외 특히 일본으로의 수출 비중이 높아졌다고 볼 수 있다. 한편 ‘술’의 주요 관련어에는 2000년대 후반으로 오면서 ‘건강, 발표, 전통, 제조’ 등의 단어가 포함되는데 이는 술 자체에 대한 관심뿐 아니라 술의 제조 과정 등에까지 관심의 영역이 넓어지고 있음을 보여 준다.


‘김태희 같은~’,
소비자의 자기 이미지 메이킹

‘트렌드’의 변화를 알아보기 위해 먼저 ‘트렌드’와 함께 출현하는 관련어에 주목하였다. 그 결과 ‘남성, 한식, 고급, 건강, 외식, 친환경, 패션, 감성, 브랜드’가 2000년대에 꾸준히 관심이 증가하는 단어로 나타났다<그림4>.



‘이미지’의 주요 관련어로는 ‘이효리, 김태희, 아이돌’과 같은 스타 이름이나 ‘현대차, 기아차, 아우디, 폴크스바겐’ 등의 브랜드 등이 포함되었다. 특히 2000년에는 이미지를 표현하는 양상에 차이가 나타나기 시작했는데, ‘귀족적, 반항적, 환상적, 도발적, 청순함’ 등의 단어들은 점차 관심에서 멀어지고 대신 ‘김태희 같은~, 이효리 같은~’과 같이 직접 유명 연예인과 동일시하여 자신의 이미지를 표현하는 양상이 증가하고 있다. 이는 연예인에 대한 관심이 어느 때보다 높아지고 있음을 보여 주는 것이다.

‘외식’ 하면 ‘자장면’을 떠올리던 시절이 있었다. 최근에는 ‘외식’ 하면 무엇이 떠오를까? 2000년대에는 ‘스테이크, 피자, 치킨’처럼 집에서 해 먹기 어려운 음식 이외에도 ‘삼겹살, 된장찌개, 갈비’처럼 집에서도 해 먹을 수 있는 음식이 외식에 포함되기 시작했다. 이는 ‘외식’ 하면 무언가 특별한 것을 먹는다는 인식이 변화했음을 보여 주는 것으로 편리함을 추구하는 현대인의 인식이 반영된 것으로 풀이할 수 있다.

2000년대 들어 남성의 소비 참여가 활발해지고 있다. 특히 2000년대 중반부터 ‘남성’의 주요 관련어에 ‘미백, 피부, 화장품, 에센스’ 등이 포함되기 시작하였으며, 이는 화장품이 여성만의 전유물에서 점차 남성에까지 확대되고 있음을 보여 주는 것이다. 이는 최근 남성들도 외모를 중시하는 사회적 분위기와 무관하지 않은 것으로 보인다. 남성의 주요 관련어에는 이 밖에도 ‘지갑, 시계, 가방, 압구정’ 등이 포함되었는데, 특히 ‘시계’는 ‘남성’과 매우 높은 관련성을 보이고 있음이 주목된다. 건강에 대한 관심은 ‘웰빙’ 열풍과 함께 2000년대의 주요 관심사 중 하나였다. 건강과 함께 자주 출현하는 단어로는 ‘관리, 헬스, 검진, 운동’ 등이 주목되는데, 이는 건강할 때 미리미리 몸을 챙겨야 한다는 예방적 차원에 대한 높은 관심을 보여 주는 것이다. 특히 이 단어들은 2000년대 중후반으로 오면서 크게 증가하고 있다.

신문의 가치 재발견

이번 연구는 장기간에 걸쳐 신문에 사용된 언어 자체의 사용 양상을 통해 사회, 문화적 변화 추세를 구명하려 시도하였다는 점에서 의의가 있다. 신문 기사의 처리와 분석에 기여한 이도길 민족문화연구원 HK교수는 신문 자원을 이만한 규모로 자원화하였다는 점 자체로도 이 연구가 큰 의의를 가질 수 있을 것이라고 지적하면서 다양한 인문학 분야의 연구에서 이 성과가 활용되기를 기대한다는 의견을 피력하였다. 실제로 4억 어절 이상의 규모로 신문 자료만을 대상으로 구축한 사례는 국외에서도 찾아보기 어렵다. 더구나 정밀한 분석을 위해 언어학적 정보(형태소 분석)까지 주석해 놓은 대규모의 신문 텍스트는 지난 시기의 언어, 사회 변화 양상을 가감 없이 보여 줄 수 있는 소중한 자원이다. 인터넷이 아무리 신문의 고유 영역을 침범한다 할지라도 사회를 반영하는 콘텐츠의 생산이라는 측면에서 신문을 따라올 매체는 없다.

연구원에서는 이번 성과 발표를 시작으로 앞으로 야심찬 계획도 추진 중이다. 먼저 사회, 정치, 문화 분야뿐 아니라 경제, 국제, 사설 등 다른 분야에 대해서도 어휘의 사용 양상에 대해 연구를 진행할 예정이다. 또한 가능하다면 1990년대 기사에 대해서도 자원화하여 2000년대와 비교, 연구하여 추이를 분석하기를 희망하고 있다. 이번 연구의 책임자인 김흥규(고려대 민족문화연구원장, 국어국문학과) 교수는 만약 이렇게 된다면 20년이라는 장기간의 신문 자원을 구축하게 됨으로써 보다 신뢰할 만한 언어, 사회, 문화의 추이를 분석할 수 있게 될 것이고, 이를 통해 가까운 미래에 대한 전망과 예측도 객관적인 방법으로 시도해 볼 수 있을 것이라고 낙관하고 있다. 또한 이러한 성과는 인문학적인 연구에 활용될 수 있을 뿐 아니라 국가적인 정책 수립이나 기업의 장기간 전략에도 도움을 줄 수 있을 것으로 내다보고 있다. 물론 이것이 선결되기 위해서는 고유명사, 동음이의어의 처리 등 넘어야 할 산이 많은 것은 사실이지만 말이다.
 

*이 글은 ‘[물결 21] 신문 텍스트 기반의 장기간 언어・사회・문화 연구’ 프로젝트의 제1차 연구발표회(2011년 1월 20일)의 내용을 기반으로 작성된 것으로 필자 개인의 성과물이 아님을 밝혀 두는 바이다. 이 연구에 참여한 연구진은 책임자 김흥규(고려대 민족문화연구원장, 국어국문학과 교수), 강범모(고려대 언어학과 교수), 이도길(고려대 민족문화연구원 HK교수), 김일환(고려대 민족문화연구원 HK연구교수), 정유진(고려대 민족문화연구원 HK연구교수), 김혜영, 이영제, 신우봉, 도재학, 조혜민, 박희우, 원유경(고려대 민족문화연구원 연구원) 등이다.

Posted by inhana

댓글을 달아 주세요