데이터 사이이언스 / AI 전문가가 되는 부담없는 첫 시작
지금 메타코드와 함께 시작해보실래요?

    커뮤니티 5천만 전국민 무료코딩교육의 신화! 메타코드

      커뮤니티

      커뮤니티 > 강의 질문
      강의 질문
      [ 유료 전환 예정 ] 자연어처리 입문강의ㅣ서울대 AI 박사 (자연어처리 입문 - 제 1편)
      # # #
      2024-04-27 16:00:58
      추천 0 답변 1 조회 23

      1. 질문 부분 시간 입력 : 22:36

      2. 질문 내용 : 

       

      토큰화도 "의미 부여" 가능한 단위로 분리하고 형태소 분석도 의미를 가진 최소 단위로 분리하는데 

      둘이 같은 건가요? 토큰화과 형태소 분석 간의 차이와 각각 어떨 때 쓰이는지 궁금합니다.

      가령, 검색엔진(와이즈넛, 코난 등)은 형태소 분석기를 사용하고 있는 것으로 아는데 이것이 토큰화를 사용하지 않는 것인지요?

      그리고, 최근 각광받는 머신러닝 텍스트 분석은 형태소 분석은 안하고 토큰화만 진행하는지 궁금합니다.

      설명 부탁드립니다. 

      누노 등급 : 실버
      커뮤니티 > 강의 질문
      답변
      Re : [ 유료 전환 예정 ] 자연어처리 입문강의ㅣ서울대 AI 박사 (자연어처리 입문 - 제 1편)
      2024-05-06 01:26:22
      추천 1

      [선생님 답변 전달드립니다]

       

      - 토큰화는 텍스트를 개별 단위인 "토큰"으로 분할하는 과정입니다. 이 토큰은 일반적으로 단어, 문장 또는 구절일 수 있습니다. 예를 들어, "나는 학교에 간다."라는 문장을 토큰화하면 ["나는", "학교에", "간다"]와 같이 분할될 수 있습니다. 토큰화는 단순히 공백이나 구두점을 기준으로 텍스트를 나누는 것이 일반적이지만, 경우에 따라서는 더 복잡한 규칙이나 패턴을 사용하기도 합니다.

       

      - 형태소 분석은 단어를 구성하는 최소 의미 단위인 "형태소"로 분할하고, 그 형태소의 품사나 기능을 파악하는 과정입니다. 한국어와 같이 형태소 구조가 복잡한 언어에서 많이 사용됩니다. 예를 들어, "학교에"라는 단어는 "학교"와 조사 "에"로 구성되어 있습니다. 형태소 분석은 이러한 구성 요소를 식별하고, 각각의 형태소에 대한 추가적인 정보를 제공합니다.

       

      - 검색 엔진은 문맥, 목적에 따라서 둘 다, 혹은 둘 중에 하나를 사용합니다. 단순한 인터넷 검색은 오히려, 토큰화를 사용한다고 봐야 합니다.

      - 최근의 NLP 모델들은 과거와 달리 형태소 분석을 사용하지 않는 경향이 있습니다. 특히 딥러닝 기반의 모델들은 사전 학습된 거대한 어휘를 사용하고, 단어를 세분화하는 대신 문장 전체를 처리하는 능력을 강화하고 있습니다. 이러한 모델들은 단어의 내부 구조보다는 문장 내의 맥락과 단어 간의 관계를 더 중시하기 때문에, 형태소 분석보다 토큰화에 의존하는 경우가 많습니다. 그러나 일부 언어의 특성에 따라 여전히 형태소 분석이 유용할 수 있습니다.

      관리자 등급 : 관리자
      30대 대기업
      경력 5년
      AI 전공
      지금, 메타코드와 시작해보세요.