[AI/LMM] 멀티모달(Multi-Modal) AI란 무엇인가? (정의, 구성요소, 장단점, 활용 분야, 실습)
·
AI Study/[LLM]
1. 들어가며불과 몇 년 전까지만 해도 AI는 '텍스트'라는 단일 데이터만 처리하는 유니모달(Unimodal) 모델이 주류였습니다. 챗봇은 글자만 읽을 수 있었고, 이미지 인식 모델은 그림만 볼 수 있었죠.하지만 인간은 세상을 그렇게 인식하지 않습니다. 우리는 친구의 목소리 톤(청각)을 듣고, 표정(시각)을 보며, 말하는 내용(언어)을 종합해 상대방의 감정을 이해합니다. AI도 이처럼 텍스트, 이미지, 오디오, 비디오 등 다양한 형태의 데이터를 동시에 이해하고 처리할 수 있다면 어떨까요?이것이 바로 멀티모달(Multi-Modal) AI의 시작입니다. GPT-4o나 Gemini 같은 최신 AI가 이미지를 보고 시를 짓거나, 영상을 보고 요약해 주는 마법 같은 일들이 가능한 이유입니다. 이번 포스팅에서는 차..