최근 ChatGPT로 인해 LLM (Large Language Model)에 대한 관심이 증대되고 있으며, 이를 프로그램 개발에도 활발히 사용하고 있다. LLM 모델의 기본이 되는 transformer 구조에 대해 강의를 통해 배우게 되며, 이 transformer 구조를 영상분석에도 사용할 수 있도록 등장한 ViT (vision transformer)까지 다루고자 한다. 이 ViT는 처음 소개된 이후, 영상분석에서 foundation model로 다양한 응용분야에서 사용되고 있다. 본 강의/실습을 통해 transformer에 대한 이해, 그리고 이를 이용한 영상분석 프로그램 개발을 경험해 볼 수 있다.