본 강좌에서는 빅데이터 통계 분석 기법을 활용하여 다중 유전체 (multiple omics) 데이터를 분석하는 여러 가지 방법들을 학습한다. 통계 분석 모형 및 이론에 대한 간략한 소개와 함께 통계 패키지 R 프로그램을 이용한 데이터 분석 실습을 병행한다. 또한 실제 유전체 빅데이터 분석 실습을 통하여 의생명과학적 의미를 도출하는 방법도 함께 다룬다. 강의는 크게 두가지 파트로 나뉜다.
첫번째 파트는 주로 빅데이터 분석에 사용하는 기본적인 기계학습 기반 방법들에 대해 배운다. 구체적으로는 R을 이용한 기본적인 데이터 분석 방법에서부터, PCA, NMF, t-SNE 등을 이용한 차원 축소 (dimension reduction) 및 시각화 방법을 우선적으로 배운다. 또한 k-means clustering, hierarchical clustering을 비롯하여 heatmap을 이용한 시각화 및 각종 classification 방법에 대해서도 실습과 함께 살펴본다.
두번째 파트는 주로 유전체 빅데이터 연관분석(genetic association study)에 사용하는 regularization technique들을 R 패키지 실습을 통해 학습한다. 고차원 유전체 데이터(high-dimensional genomic data) 분석에서 변수 선택을 위해 일반적으로 많이 적용되는 lasso/ elastic-net regularization방법뿐만 아니라 유전체의 그룹 구조를 활용한 group lasso와 gene regulatory network와 같은 유전체 네트워크를 활용하는 network-based regularization 방법도 함께 다룬다.