데이터 정제 | 필터링 | -유의어, 지정어, 제외어 등 시소러스 사전 기능 활용하여 데이터 필터링 |
변환 | -비정형 텍스트를 정형화된 형태소 집합으로 변환, 추출 |
형태소 추출(코퍼스 구축) | ▼총 13,874개 형태소(명사형:11,806개, 형용사형:692개, 동사형:1,376개) 추출 |
데이터 분석 | 기초통계 | -수집 데이터 현황 등 분석 |
빈도수 분석 | -단어 빈도수(상대 빈도수): 단어 출현 빈도수 측정-배율 분석: 어떤 수가 기준이 되는 수의 몇 배인가 배율 분석-TF-IDF: 문서 내 단어의 중요도 분석-동시 출현 빈도수 : 특정 범위에서 동시 출현한 단어 분석(중요도 분석) |
시맨틱 네트워크분석 | ① 공기 관계로 연결된 ‘단어 네트워크’ 형성 |
② 단어 네트워크 목록에서 ‘명사×형용사’, ‘명사×동사’ 관계로 연결된 목록 추출, 검토 |
③ ‘단어 네트워크 맵(Keyword Network Map)’으로 시각화, 검토 |
④ 주요 형용사를 중심으로 에고 네트워크 분석(Ego-Network Analysis), 시각화, 검토 |
감성 분석 | -감성 사전 기반 감성 어휘 비율 분석(텍스톰 이용)-‘명사ㆍ형용사 네트워크 목록’에서 형용사와 연결된 명사 검토(넷마이너 이용) |