명세서 파싱 모듈 | XML 태그 처리 | 명세서 XML 파일을 분석하여 XML 태그를 제거하고, 각 필드에 대한 데이터를 저장 |
---|---|---|
필드 데이터 추출 |
|
|
자연어처리 모듈 | 형태소 분석 | 명세서에서 수집한 텍스트에 대해 형태소 분석 및 태깅 수행 |
TM 분석 |
|
|
핵심어 추출 | 핵심어 후보 선정 |
|
불용어 제거 |
|
|
핵심어 선택 |
|
|
유사특허 추출 | 문서 클러스터링 |
|
문서 유사도 계산 | 각 특허문서에 대해 클러스터 내에 존재하는 특허와의 유사도 계산
|
|
유사특허 생성 | 각 특허문서에 대해 기술분류 가중치가 적용된 최종 유사도 값을 이용하여 상위 100개의 특허를 유사특허로 선정 |