본문 바로가기

언어/한자학

단국대 《한국역대한자자형자전》 DB의 공개를 기다리며

반응형

한국학중앙연구원 한국학사전편찬사업 《한국역대한자자형자전韓國歷代漢字字形字典(이하 《역대》)은 단국대학교 한문교육연구소에 의해 2022년에 구축된 데이터베이스로, 아직 일반 공개되지는 않았으나 이 DB를 활용한 연구 논문이 2024년 4월 기준 최지연(2022)과 최지연·신윤수(2024)의 총 두 편이 공개되어 있습니다. 《역대》는 통일신라부터 대한제국 시기까지의 총 1,259종의 문집을 수록한 《한국문집총간》에 더해 《조선왕조실록》《일성록日省錄》 등 다양한 한국 역사 문헌으로부터 자형 이미지를 수집하여 구축한 방대한 규모의 데이터베이스입니다. 총 1만 593자종字種, 약 3억 80만 자형 이미지를 수록합니다. 다음은 최지연·신윤수(2024:213-214)에 제시된 《역대》가 수록하는 서종書種입니다.

    • 한국문집총간 韓國文集叢刊 (1,259종)
    • 조선왕조실록 朝鮮王朝實錄 (31종)
    • 일성록 日省錄 (6종)
    • 강연설화 講筵說話
    • 고려사 高麗史
    • 국조보감 國朝寶鑑
    • 국조보감 별편 國朝寶鑑 別編
    • 동문선 東文選
    • 동문휘고 同文彙考
    • 사기영선 史記英選
    • 삼경사서정문 三經四書正文
    • 삼국사 三國史
    • 신증동국여지승람 新增東國輿地勝覽
    • 주자회선 朱子會選
    • 어정송사전 御定宋史筌
    • 홍재전서 弘齋全書
    • 임하필기 林下筆記
    • 춘방일기 春坊日記
    • 계방고사 桂坊故事
    • 승정원일기·인조 承政院日記·仁祖

단국대학교는 일찍이 《한국한자어사전》(1992–1996), 《한한대사전漢韓大辭典(1996), 《한국한자자전》(2023) 등 한국학 관련 대규모 자전류를 구축하여 편찬해왔는데, 현재 준비중에 있는 《한국역대한자자형자전》(공개 예정)은 그 방대한 분량에도 불구하고 전례 없는 속도로 구축 작업이 진척되고 있습니다. 저는 관계자가 아닌 관계로 정확히 파악하기는 어려우나, 《역대》는 한문교육연구소에서 구축한 고문헌 OCR 플랫폼을 활용하여 역사 문헌의 스캔 이미지로부터 개별 글자 이미지를 추출한 뒤 AI가 자종을 판단하여 자동으로 분류하는 식으로 구축되는 것으로 추정됩니다. 고비용·저효율의 노동집약적인 작업을 인공지능을 활용하여 자동화함에 따라 성사된 일입니다. 다만 미확정 글자와 마멸자摩滅字는 전임인력이 투입되어 인간이 검토합니다.

 

《역대》의 강점은 각 자형 이미지에 포함된 문헌과 판본 관련 메타 데이터에 있습니다. 이를 통해 해당 자형이 출현하는 판본, 시기 및 지역을 파악하여 한국 한자 자형의 통·공시적 추적이 용이해집니다. 심지어는 인쇄 방식을 기준으로 추려서 추출하는 것도 가능해보입니다. 최지연(2022)은 《역대》를 활용하여 《한국문집총간》에 수록된 ‘금속활자본’만을 추려 자형을 추출하여 진행한 연구입니다. 조선시대에 국가 주도로 주조되어 당시 국가의 ‘자형관字形觀’을 반영한 다양한 금속활자의 시대별 변천을 손쉽게 일람할 수 있어 한국 표준 자형 제정에 큰 도움을 줄 수 있으며, 비교적 덜 정형화된 목활자본과 보다 다채로운 자형을 보이는 목판 인쇄본과 필사본의 자형 데이터를 통해 한국에서 역사적으로 사용된 이체자를 효율적으로 연구할 수 있게 됩니다. 명백한 영향 관계에도 불구하고 여태껏 면밀하게 연구되었다고는 말하기 어려운 한국을 포함한 역외域外 속자의 발원 및 전파 과정을 추적하는 데 있어 더없이 유용한 도구의 역할을 맡게 될 것입니다.

 

단국대학교 한문교육연구소의 고문헌 OCR 모델의 자형 인식률은 90%라고 하여 인상적입니다. 그런데 자종은 같으나 자체字體가 다른 속자, 약자 등은 어떻게 처리하였는지 궁금합니다. 예컨대 鬱막힐 울의 한국 속자인 㭗의 경우 OCR 모델을 통해 정확하게 자종을 파악하여 분류하는 것은 불가능할 것입니다. 조선후기 민간 방각본 속자 역시 정자正字와 판이하게 다른 모습의 이체자가 많습니다. 이들의 처리에 대한 기준이 어떻게 마련되어 적용되었는지 알기 위해서는 《역대》의 일반 공개를 기다리는 수 밖에 없습니다.

《역대》 메인화면

 

최지연·신윤수(2024)에는 《역대》의 웹 서비스 플랫폼의 캡처 이미지가 실려 있어 데이터베이스의 대략적인 기능을 엿볼 수 있습니다. PDF 파일의 이미지 화질 열화가 심하여 판독 불가능한 글자도 있지만, 대략적인 검색 기능과 필터 기능은 파악됩니다. ‘한자검색’ 메뉴에서는 연대, 서종, 판종 등을 추려서 검색할 수 있습니다. 검색어 필드에는 ‘한자’와 ‘유니코드’를 직접 입력할 수 있는데, 그렇다면 적어도 ‘한자검색’ 메뉴에서는 Unicode 미등재 글자는 검색할 수 없는 걸까요? 아마도 ‘부수검색’과 ‘부건검색’ 메뉴에서 디지털 입력이 까다로운 글자들을 필터링할 수 있을 것으로 보입니다. 디지털통합 《한한대사전》의 데이터를 《역대》의 검색 기능을 연동한다면 사용성은 더욱 개선될 것입니다. 페이지 상단에는 중국어, 일본어, 영어 등 다국어 지원을 시사하는 메뉴가 마련되어 있습니다.

 

《역대》의 데이터는 이곳 Github 페이지에 첨부된 자료를 통해 미리 엿보는 것이 가능합니다. 향후 《역대》에 관한 더 상세한 정보가 갱신되기를 바라며 가까운 시일 내에 일반 공개되어 국내외 한국학·한자학 연구자들과 애호가들에게 즐거움을 선사하는 성공적인 플랫폼이 되기를 희망합니다.

 

  • 최지연(2022)〈한국 역대 한자 字形 字典 데이터베이스를 활용한 시대별 자형 변화 양상 고찰: 한국문집총간 소재 금속활자 爲, 淸, 鑒, 群, 鄰을 중심으로〉《大東漢文學》70:271-298
  • 최지연·신윤수(2024)〈〈한국 역대 한자자형 자전 DB〉를 활용한 한국의 한자자형 변화 연구: 強·溫·冊·峯·豐을 중심으로〉《民族文化》66:209-249
반응형