티스토리 뷰

1. 역사적인 차원의 언어학
역사적인 차원에서 음운론을 연구하는 분야는 역사음운론, 전산적인 차원에서 의미론을 연구하는 분야는 전산의미론, 이론적인 관점에서 통사론을 연구하는 분야는 이론통사론 등으로 불린다.
비교언어학(比較言語學, 영어: comparative linguistics, comparative-historical linguistics)은 같은 기원을 가진 언어들의 관계와 시간이 지남에 따라 일어나는 언어의 변화를 다루는 학문이다. 음운변화를 다루며 절대적이고 일관성이 있는 규칙이 있음을 주장하고 음운변화는 예외 없이 일정한 규칙에 의해 일어난다고 하였다. 단, 예외가 있다는 그것은 유추(analogy)에 의해 생긴 것일 뿐이라고 하였다. 이들은 언어변화를 지배하는 법칙의 일관성을 굳게 믿었으며 이것은 인간의 힘으로 통제할 수 없는 것이라고 생각했다.
언어학의 하나의 방법론으로써 유형론은 이러한 ‘언어의 유형을 연구하는 것’만을 의미하지는 않는다. 유형론적 연구는 형식적 혹은 논리적 연구에 맞서는 것으로 언어의 기능, 인식 구조, 화용적 성격, 역사적 성격을 중요시하는 방법론을 말한다. 전산언어학(電算言語學, 영어: computational linguistics)은 전산학과 언어학에 밀접한 관련이 있는 학제간 학문으로 전산적인 관점에서 자연언어의 통계적인 모형과 논리적인 모형을 다루는 분야를 말한다. 한 언어를 다른 언어로 번역하기 위해서, 각각의 언어들의 형태론과 구문론을 포함한 문법을 이해해야 했다. 구문론을 이해하기 위해서는, 또한 의미론과 사전학(또는 어휘), 심지어 언어 사용의 화용론에 대해서도 이해해야 했다. 전산 언어학은 인공 지능에 전제되는 분야로써 종종 다루어지기도 한다. 전산 언어학은 1950년대 미국에서, 외국어, 특히 러시아의 과학 잡지를 영어로 자동 번역하려는 노력으로부터 기원한다.
조건만 만족할 수 있으면 작게는 시집 한 권이나 소설 한 편으로부터 1억 어절 이상의 말 또는 글로 표현된 각종의 자료에 이르기까지, 다양한 크기의 자료 모음이 모두 말뭉치라는 이름으로 묶일 수 있으며, 그 내용도 연구의 목적에 따라 다양하게 구성될 수 있다. 말뭉치(코퍼스)란, 언어를 연구하는 각 분야에서 필요로 하는 연구 재료로서 언어의 본질적인 모습을 총체적으로 드러내 보여줄 수 있는 자료의 집합을 뜻한다.
한국에서는 1988년부터 구축되어 온 연세대학교의 연세 한국어 말뭉치가 대표적이다. 한국과학기술원, 고려대학교, 국립국어원 등에서도 본격적으로 말뭉치를 구축해 오고 있으며, 1998년부터 ‘21세기 세종 계획:국어 정보화 추진 중장기 사업’의 일환으로 우리나라에서도 본격적으로 국가 말뭉치가 구축되기 시작하였다.
말뭉치가 지녀야 하는 두 가지 특성은 '대표성'과 '균형성'이다. 표본이 모집단을 통계적으로 대표할 수 있는가가 보장되지 못하면 그 표본으로 하는 연구는 하나 마나 한 것이 된다. 말뭉치를 구축할 때 처음 발생하는 문제는 어떤 문서에서 어느 정도의 양을 고를 것인가이다. 말뭉치는 클수록 좋겠지만, 크면 그만큼 다루기 힘들어지고 또 수집하기도 어렵다. 따라서 신뢰도를 어디까지 가져갈 것인가에 맞혀 크기를 결정하면 된다. 세종계획 말뭉치는 연세 말뭉치에 비해 규모도 방대하고 준구어 텍스트까지 포함하는 등 좀 더 범용으로 만들어졌다. 하지만 전체적인 장르 간 비율 등을 보면 연세 말뭉치와 아주 다르다고 보긴 어렵다. 참고로 21세기 세종계획의 결과로 구축된 말뭉치 중에는 현대국어 구어 전사 말뭉치, 한영/한일 병렬 말뭉치, 북한 및 해외 한국어 말뭉치, 역사 자료 말뭉치, 전문 용어 말뭉치 등의 다양한 특수 말뭉치가 포함되어 있다.
2. 말뭉치 분석
말뭉치 분석으로 얻는 가장 유용한 정보는 빈도이다. 특정 어휘, 특정 환경이 말뭉치 내에서 얼마나 많이 나왔느냐를 관찰하면 이후 연구의 방향을 잡을 수 있기 때문이다. 말뭉치 언어학의 연구 방법으로 주석 달기, 추상화, 분석의 세 가지를 얘기한다. 감탄사나 선어말 어미, 대명사의 사용 빈도는 장르에 따라 변화가 있다. 이런 특성에 기대어 말뭉치가 균형성을 가지게 되었는지, 아니면 구축자의 의도에 맞게 만들어졌는지를 판단해볼 수 있다. 말뭉치는 목적에 따라 다르게 구축할 수 있다. 예를 들어 구어 말뭉치를 따로 구축하면 문어와 대비되는 구어의 사용 양상을 찾아볼 수 있다. 따라서 말뭉치에서 제시된 후보를 언어학자가 눈으로 살펴서 후보의 의미가 얼마나 투명한가를 판별해야 한다. 2개 국어 이상의 번역된 문서를 모은 말뭉치를 병렬말뭉치(parallel corpus, 병렬 코퍼스)라 부른다. 대개의 말뭉치는 현대어 위주로 구축되어 있지만 역사 말뭉치를 구축하면 통시적 연구가 가능해진다. 특정 어휘가 어떤 식으로 변해왔는가를 추적할 수도 있고, 그 시대 어휘만을 다룬 역사 사전도 만들 수 있다. 병렬 말뭉치를 구축할 때의 가장 큰 주의점은 되도록 직역한 것 위주로 모으는 것이 좋으며 원문과 번역문의 표시를 명확하게 해야 한다는 것이다. 병렬말뭉치가 구축되어 있으면 이국어 사전을 만드는 데 도움이 된다. 말뭉치를 토대로 한 언어 연구의 결과물은 사전 편찬과정에 반영되기 마련이고 대규모의 말뭉치는 사전 편찬과 함께 발달하였다. 사전편찬이나 언어 연구에서 모든 것이 말뭉치만으로 해결되는 것은 아니다. 일단 말뭉치로 구축하기 매우 힘든 언어 현상들이 있다. 게다가 비교적 높은 수준의 자연어 처리 능력과 데이터베이스 관리 능력이 필요하고, 많은 경우 저작권 문제가 걸리기 때문에 국가나 학계 이외의 곳에서 진행하기에는 어려운 면이 있다.
'잡지식' 카테고리의 다른 글
| 경제학 - 애덤 스미스, 노동가치설 (0) | 2022.09.21 |
|---|---|
| 언어학 - 언어 되살리기, 심리언어학 (0) | 2022.09.20 |
| 언어학 - 공시언어학, 통시언어학 등 (0) | 2022.09.20 |
| 심리학 - 군중심리학, 바넘효과 (0) | 2022.09.20 |
| 심리학 - 칵테일 파티 효과, 인지부조화 (0) | 2022.09.20 |