표 3. 기간별 원자료 및 정제 데이터 현황

구분 1기간(’03~’09) 2기간(’10~’14) 3기간(’15~’19) 4기간(’20~’23.08)
수집 원자료 문서: 147건(문장: 864개, 단어: 29,823개) 문서: 783건(문장: 3,983개, 단어: 141,602개) 문서: 1,310건(문장: 5,679개, 단어: 213,274개) 문서: 2,443건(문장: 10,361개, 단어: 405,324개)
▼ (데이터 정제)비정형 데이터를 정제하여 정형 데이터로 변환, 추출
코퍼스 구축 형태소: 2,136개 형태소: 5,979개 형태소: 7,137개 형태소: 9,352개