표 2. 데이터 정제 및 분석 방법

구분 작업 내용
데이터 정제 필터링 -유의어, 지정어, 제외어 등 시소러스 사전 기능 활용하여 데이터 필터링
변환 -비정형 텍스트를 정형화된 형태소 집합으로 변환, 추출
형태소 추출(코퍼스 구축) 총 13,874개 형태소(명사형:11,806개, 형용사형:692개, 동사형:1,376개) 추출
데이터 분석 기초통계 -수집 데이터 현황 등 분석
빈도수 분석 -단어 빈도수(상대 빈도수): 단어 출현 빈도수 측정-배율 분석: 어떤 수가 기준이 되는 수의 몇 배인가 배율 분석-TF-IDF: 문서 내 단어의 중요도 분석-동시 출현 빈도수 : 특정 범위에서 동시 출현한 단어 분석(중요도 분석)
시맨틱 네트워크분석 ① 공기 관계로 연결된 ‘단어 네트워크’ 형성
② 단어 네트워크 목록에서 ‘명사×형용사’, ‘명사×동사’ 관계로 연결된 목록 추출, 검토
③ ‘단어 네트워크 맵(Keyword Network Map)’으로 시각화, 검토
④ 주요 형용사를 중심으로 에고 네트워크 분석(Ego-Network Analysis), 시각화, 검토
감성 분석 -감성 사전 기반 감성 어휘 비율 분석(텍스톰 이용)-‘명사ㆍ형용사 네트워크 목록’에서 형용사와 연결된 명사 검토(넷마이너 이용)