스킵네비게이션

주메뉴바로가기 본문바로가기


유사특허추출

HOME > 평가시스템소개 > 평가모델소개 > 유사특허추출

전체 프로세스 구성도

전체 프로세스 구성도

프로세스 단계별 상세설명

프로세스 단계별 상세설명
명세서 파싱 모듈 XML 태그 처리 명세서 XML 파일을 분석하여 XML 태그를 제거하고, 각 필드에 대한 데이터를 저장
필드 데이터 추출
  • 명세서 데이터에서 핵심어를 추출할 대상 필드의 텍스트 정보를 수집
  • 대상 필드: 발명의 요약, 청구항
자연어처리 모듈 형태소 분석 명세서에서 수집한 텍스트에 대해 형태소 분석 및 태깅 수행
TM 분석
  • 명사구 분석을 통해 복합명사 생성
  • 구문관계 분석을 통해 주어-술어/술어-목적어/수식어-피수식어 등의 복합어구 생성
  • 문장 내 단어(단일어, 복합어)들의 공기정보(Co-occurrence)를 이용한 연관어구 생성
핵심어 추출 핵심어 후보 선정
  • 자연어처리 결과로부터 핵심어로 사용할 후보 선정
  • 핵심어 후보: 단일명사, 복합명사, 복합어구, 연관어구
불용어 제거
  • 핵심어 후보군 중에서 핵심어로 적합하지 않은 요소들 제거
  • 불용어 사전을 사용
핵심어 선택
  • 핵심어 가중치 부여: 각 특허문서의 핵심어 후보군에 대하여 TF-IDF Score 계산
  • 핵심어 선택: 각 특허문서에 대해 핵심어 가중치 상위 50개를 핵심어로 선정
유사특허 추출 문서 클러스터링
  • 핵심어-문서 벡터 생성: 각 특허문서에 대한 핵심어 리스트를 이용
    핵심어-문서 벡터 생성
  • 문서별 클러스터 생성: 핵심어-문서 벡터를 이용하여 각 특허문서에 대해 동일한 핵심어를 포함하는 문서집합 생성
문서 유사도 계산 각 특허문서에 대해 클러스터 내에 존재하는 특허와의 유사도 계산
  • 문서간 유사도: 두 문서 사이에 일치하는 핵심어의 가중치를 이용한 cosine-similarity 사용
  • 기술분야 가중치 부여
    • - 두 특허문서의 IPC 정보와 WIPO 기술분류를 이용하여 기술분야 가중치 부여
      • 기술분야 가중치
        IPC 일치>기술소분류 일치>기술중분류 일치>기술대분류 일치>기술분야 일치하지 않음
    • - 문서간 유사도 값에 기술분야 가중치를 추가 적용하여 최종 유사도 계산
유사특허 생성 각 특허문서에 대해 기술분류 가중치가 적용된 최종 유사도 값을 이용하여 상위
100개의 특허를 유사특허로 선정