UK Biobank는 영국의 인구 기반 바이오뱅크로, 약 50만 명의 유전체 정보와 방대한 표현형 데이터를 보유하고 있다. 본 세션은 연구자가 UK Biobank와 같은 데이터를 효과적으로 분석하는 데 필요한 정보를 제공하는 것을 목표로 한다.
▶Day 1 – 정원일 교수님
첫 번째 세션에서는 유전체 분석의 기본 및 population stratification에 대해 학습하고, UK Biobank의 유전체 및 표현형 데이터를 데이터 유형에 따라 소개한다. 이어서 UK Biobank 데이터를 활용한 연관성 분석에 사용되는 최신 혼합 모형 기반 기법들(BOLT-LMM, REGENIE)을 다룬다. 또한 phenotype 데이터 중 질병 정보, 다범주형 데이터, 그리고 time-to-event 데이터에 적용 가능한 최신 분석 방법들(SAIGE, POLMM, GATE)을 소개한다. 연관성 분석 이후 수행할 수 있는 후속 분석으로는 검정력 향상을 위한 메타분석(meta-analysis), 다양한 형질의 GWAS 데이터를 통합하기 위한 교차형질 메타분석(cross-trait meta-analysis), 그리고 유전자 발현 데이터와 표현형 간 연관성을 탐색하는 TWAS(transcriptome-wide association study)를 포함한다. 마지막으로, 간단한 시뮬레이션 데이터를 활용하여 Biobank와 같은 대규모 데이터셋에서의 연관성 분석, 메타분석, 그리고 TWAS 분석을 실습함으로써 실제 바이오뱅크 데이터 분석의 전반적인 과정을 경험한다.
▶Day 2 – 정원일 교수님
두번째 세션에서는 Heritability (유전율) 및 Genetic Correlation (유전적 상관계수) 추정 방법에 대해 소개하고 Polygenic risk score (PRS) 및 genetic susceptibility의 개념에 대해 이해하여 여러 질병 (T2D, Asthma)에 대한 Heritability 및 Genetic Correlation 그리고 개인의 유전적 소인을 수치화 하는 방법에 대해 알아본다. Heritability가 PRS로 계산된 Prediction accuracy의 최대치임을 이해하고 PRS를 계산하기 위해 논문에서 공개된 GWAS 데이터를 이용하는 방법과 Biobank 데이터를 직접 활용하는 방법에 대해 알아본다. 또한 plink, GCTA, LDpred와 같은 프로그램에서 Heritability와 PRS를 계산하기 위해 사용하는 통계 모델에 대해 설명한다. 간단한 시뮬레이션 데이터를 통해 Biobank 데이터와 같은 대용량 데이터를 활용하여 Heritability 및 PRS를 계산하는 방법에 대해 실습하고 실제 바이오뱅크 데이터를 이용한 통계 분석에서 Heritability와 PRS를 어떤 방식으로 활용하는지 실습한다.
구분 | 세션 | 시간 | 강의내용 | 강사명 | 비고 |
---|---|---|---|---|---|
Day 1 | Session 1 | 09:20~10:50 | 유전체 데이터 분석 기초 및 UK Biobank 데이터 최신 GWAS 분석 방법 소개 | 정원일 | 강의 |
Day 1 | Session 2 | 11:00~12:30 | 메타분석, TWAS 분석 소개 | 정원일 | 강의 |
Day 1 | Session 3 | 14:00~15:30 | UK-Biobank 데이터 소개 및 GWAS 분석 실습 | 정원일 | 강의/실습 |
Day 1 | Session 4 | 15:40~17:10 | 메타분석, TWAS 분석 실습 | 정원일 | 강의/실습 |
Day 2 | Session 1 | 09:20~10:50 | Heritability 및 Genetic Correlation 추정 방법 소개 | 정원일 | 강의 |
Day 2 | Session 2 | 11:00~12:30 | Polygenic Risk Scores (PRS) 계산 방법 소개 | 정원일 | 강의 |
Day 2 | Session 3 | 14:00~15:30 | Heritability 추정 실습 | 정원일 | 강의/실습 |
Day 2 | Session 4 | 15:40~17:10 | PRS 계산 실습 | 정원일 | 강의/실습 |