[AI/LLM] 토큰(Token)과 토크나이제이션(Tokenization)란 무엇인가? (정의, 특징, 종류, 실습)
·
AI Study/[LLM]
1. 들어가며우리는 "사과"라는 단어를 보면 빨갛고 맛있는 과일을 떠올립니다. 하지만 컴퓨터, 특히 인공지능(AI)에게 텍스트는 그저 0과 1로 이루어진 데이터일 뿐입니다. LLM이 인간의 언어를 이해하고 생성하기 위해서는 텍스트를 기계가 처리할 수 있는 숫자(Vector)로 변환하는 과정이 반드시 필요합니다.이 과정의 가장 기초이자 핵심이 바로 토크나이제이션(Tokenization)이며, 이때 잘라진 조각을 토큰(Token)이라고 부릅니다. 토큰은 LLM의 성능, 비용, 속도를 결정짓는 가장 중요한 단위입니다.이번 포스팅에서는 딥러닝과 LLM의 시작점인 토큰의 정의, 동작 원리(BPE, WordPiece), 그리고 파이썬을 이용한 실습까지 A to Z를 다뤄보겠습니다.2. 토큰(Token)이란 무엇인가..