표 3. 기간별 원자료 및 정제 데이터 현황
구분
1기간(’03~’09)
2기간(’10~’14)
3기간(’15~’19)
4기간(’20~’23.08)
수집 원자료
문서: 147건
(문장: 864개, 단어: 29,823개)
문서: 783건
(문장: 3,983개, 단어: 141,602개)
문서: 1,310건
(문장: 5,679개, 단어: 213,274개)
문서: 2,443건
(문장: 10,361개, 단어: 405,324개)
▼ (데이터 정제)
비정형 데이터를 정제하여 정형 데이터로 변환, 추출
코퍼스 구축
형태소: 2,136개
형태소: 5,979개
형태소: 7,137개
형태소: 9,352개