UK-Biobank는 영국의 population-based biobank 로 50 만명의 유전체와 방대한 양의 phenotype정보를 가지고 있다. 본 세션은 연구자가 UK-Biobank 와 같은 데이터를 분석하는 데 있어서 필요한 정보를 제공하는 것을 목표로 한다.
▶7 월 17 일 – 정원일 교수님
첫번째 세션에서는 유전체 분석의 기본인 Hardy-Weinberg Equilibrium (HWE), Linkage Disequilibrium (LD), population Stratification에 대해 공부하고 UK-Biobank의 유전체 데이터 및 phenotype 데이터를 데이터의 타입을 바탕으로 소개한다. UK Biobank의 연관성 분석을 위해 혼합 모형 (mixed model)을 이용한 최신 방법들 (BOLT-LMM, REGENIE)에 대해 소개한다. 또한 UK Biobank phenotype데이터 중 질병 데이터, 범주가 여러 개 있는 데이터 그리고 time to event 데이터 분석을 위한 최신 방법들 (SAIGE, POLMM, GATE)에 대해 소개한다. 연관성 분석 후 수행 가능한 분석 중에서 검정력 증가를 위해 필요한 메타 분석 (meta analysis), 여러 형질의 GWAS 데이터를 merge하기 위해 필요한 교차형질 메타분석 (cross-trait meta analysis) 그리고 발현체 데이터와 phenotype 데이터의 연관성을 밝히기 위한 TWAS분석 (transcriptome-wide association study)에 대해 소개한다. 간단한 시뮬레이션 데이터를 통해 Biobank데이터와 같은 대용량 데이터의 연관성 분석, 메타분석 그리고 TWAS분석에 관해 실습하여 실제로 바이오 뱅크 데이터 분석이 어떠한 방식으로 진행되는지 알아본다.
▶7 월 18 일 – 정원일 교수님
두번째 세션에서는 Heritability (유전율) 및 Genetic Correlation (유전적 상관계수) 추정 방법에 대해 소개하고 Polygenic risk score (PRS) 및 genetic susceptibility의 개념에 대해 이해하여 여러 질병 (T2D, Asthma, Covid-19)에 대한 Heritability 및 Genetic Correlation 그리고 개인의 유전적 소인을 수치화 하는 방법에 대해 알아본다. Heritability가 PRS로 계산된 Prediction accuracy의 최대치임을 이해하고 PRS를 계산하기 위해 논문에서 공개된 GWAS 데이터를 이용하는 방법과 Biobank 데이터를 직접 활용하는 방법에 대해 알아본다. 또한 plink, GCTA, LDpred와 같은 프로그램에서 Heritability와 PRS를 계산하기 위해 사용하는 통계 모델에 대해 설명한다. 간단한 시뮬레이션 데이터를 통해 Biobank 데이터와 같은 대용량 데이터를 활용하여 Heritability 및 PRS를 계산하는 방법에 대해 실습하고 실제 바이오뱅크 데이터를 이용한 통계 분석에서 Heritability와 PRS를 어떤 방식으로 활용하는지 실습한다.