본문 바로가기
카테고리 없음

Jieba[结巴]-주요기능 / 全模式, 精确模式

by 데이터분석 중니어 2021. 1. 16.
반응형

코드 예시로 분석해보자!!

3일차 요약정리

  • 지에바 주요기능 소개
  • 지에바 예시 분석
  • 지에바 예시 변형

지에바 주요기능 소개

지난 번 아나콘다 가상환경 설치 및 지에바 패키지 설치까지 끝났다면

이제는 문장을 분석하는 실습을 진행할 차례이다.

지에바 패키지를 소개하는 페이지에서는 지에바의 주요 기능으로 2가지를 소개한다.

첫번째는 분석이고, 두번째는 자연어처리용 사전에 단어를 추가하는 기능이다.

오늘은 첫번째 기능인 분석에 대해 소개하고자 한다.

중문 설명
영문 설명

물론 나는 중국어도 영어도 못하기에... 한글로 해석했다...

주요기능 한글

오오... 한글... ㅜㅜㅜㅜㅜ 너무 좋다

세종대왕은 위대하십니다!! 한글 보자마자 편안~

 

은닉 마르코프 모델과 GBK에 대해서는 알아봐야 할 것 같다.

나중에 시간이 되면 따로 정리하는 것으로..

 

지에바 예시 분석

지에바 예시는 github 페이지에서도 나와있다.

코드 예시

이런 코드를 수행하면 아래와 같이 나온다.

코드 출력 결과

이렇게만 보면 대충 어떤 기능인지 알 것 같기도 하지만, 실제로 하려면 아직도 아리송하다.

때문에 나도 새로 시도해보았다.

 

지에바 예시

1) 全模式(완전모드)

全模式

우선 jieba.cut() 함수를 사용하기 위해 jieba 패키지를 import하였다.

jieba.cun() 함수 코드를 보면 cut_all 이라는 매개변수가 True 로 설정되어 있다. (全模式로 설정하는 것!!)

결과를 보면 한국외국어대학교 라는 단어가 `한국, 외국, 외국어, 국외, 대학` 이라는 여러 단어의 형태로 출력된다.

이렇듯 모든 경우의 수를 출력하는 것이 全模式 이다.

 

2) 精确模式 (기본 모드)

精确模式

jieba.cun() 함수 내 cut_all 이라는 매개변수가 False 로 설정되어 있다. (精确模式로 설정하는 것!!)

결과를 보면 한국외국어대학교 라는 단어가 `한국, 외국어, 대학` 이라는 단어 형태로 출력된다.

경우의 수 없이, 해당 문장에서 가장 정확하다고 판단되는 단어의 형식으로 문장을 분할한다.

일반적으로 텍스트 분석을 할 때 가장 많이 쓴다. (때문에 cut_all의 디폴트값은 False 이다.)

이러한 모드가 바로 精确模式이다.

 

반응형