롱리드 시퀀싱 표준 분석 백서

Korean Molecular Atlas Project (KMAP) 표준 파이프라인 백서

버전 1.0 (초안) · 2026-04-05

1. 서론

차세대 시퀀싱(NGS)의 발전에도 불구하고, 숏리드(short-read) 기반 분석은 구조적 변이(SV) 검출, 하플로타입 해석, 전장 전사체 분석, 그리고 직접적 메틸레이션 검출에 본질적인 한계를 가진다. PacBio HiFi (High-Fidelity) 롱리드 시퀀싱 기술은 평균 15–20 kb 이상의 리드 길이와 99.9% 이상의 염기 정확도를 동시에 달성하여, 이러한 한계를 극복할 수 있는 강력한 플랫폼으로 부상하였다 [1].

한국분자지도프로젝트(Korean Molecular Atlas Project, KMAP)는 인체 조직의 다중오믹스 분자지도를 구축하는 국가 프로젝트로서, PacBio HiFi 기반의 롱리드 시퀀싱 데이터를 표준적으로 분석하기 위한 통합 파이프라인의 수립이 필수적이다. 본 백서는 KMAP 내부 논의 및 다기관 협의를 바탕으로, 롱리드 시퀀싱 데이터의 표준 분석 절차를 정의한다. 구체적으로 (i) PacBio HiFi whole genome 메틸레이션 분석, (ii) MAS-ISO-Seq 기반 전장 전사체 분석, (iii) 싱글셀 RNA 시퀀싱의 세 가지 주요 파이프라인을 다룬다.

본 파이프라인의 설계 원칙은 다음과 같다:

재현성: 모든 소프트웨어의 버전과 파라미터를 명시하고, 워크플로우 관리 시스템을 통해 자동화한다.
다기관 호환성: 서로 다른 시퀀싱 업체로부터 생산된 데이터를 수용할 수 있도록 유연한 시작점(entry point)을 설정한다.
표준화: 레퍼런스 유전체, 어노테이션 데이터베이스, 도구 버전을 프로젝트 전체에서 통일한다.

2. 레퍼런스 유전체 선택

2.1 GRCh38 (HG38) 기반 표준

현재 KMAP 표준 파이프라인은 GRCh38 (HG38)을 기본 레퍼런스 유전체로 채택한다. T2T-CHM13은 완전한 telomere-to-telomere 어셈블리로서 반복 서열 및 centromere 영역의 해석에 우수한 장점을 제공하지만 [2], 현시점에서 유전자 어노테이션의 완성도, 기존 데이터베이스와의 호환성, 그리고 다기관 간 합의를 고려하여 GRCh38을 표준으로 선정하였다.

2.2 서브 버전 통일

GRCh38 내에서도 제공 기관에 따라 미세한 차이가 존재하므로, 프로젝트 전체에서 동일한 서브 버전(예: GRCh38.p14, analysis set)을 사용하는 것이 필수적이다. 이를 통해 업체 간 데이터의 좌표 호환성을 보장한다.

3. PacBio HiFi Whole Genome Sequencing 파이프라인

3.1 메틸레이션 분석

PacBio HiFi 시퀀싱은 bisulfite 변환 없이 DNA 중합효소의 kinetic 정보(IPD: inter-pulse duration, PW: pulse width)를 활용하여 5mCpG 메틸레이션을 직접 검출할 수 있다.

Step 1: 5mC Base Modification Calling (Jasmine)

Jasmine은 PacBio에서 개발한 도구로, HiFi 리드의 kinetic 정보를 기반으로 각 CpG site에서의 메틸레이션 확률을 산출한다. 출력은 BAM 파일의 MM(methylation position) 및 ML(methylation likelihood) 태그로 저장된다.

Step 2: Reference Genome Alignment (pbmm2/minimap2)

MM/ML 태그가 포함된 HiFi 리드를 minimap2 [3] 또는 pbmm2를 사용하여 레퍼런스 유전체에 정렬(alignment)한다. 정렬 시 --MD 플래그를 포함하여 mismatch 정보를 보존하며, 매핑 품질(MAPQ) 통계를 산출하여 정렬 품질을 모니터링한다.

Step 3: Small Variant Calling (DeepVariant)

DeepVariant [4]를 사용하여 정렬된 리드로부터 SNP 및 small indel을 검출한다. DeepVariant는 deep convolutional neural network 기반의 variant caller로, PacBio HiFi 데이터에 최적화된 모델을 제공한다. 출력은 gVCF 형식으로 생성된다.

Step 4: Haplotype Phasing (WhatsHap / HiPhase)

Haplotype phasing을 위해 두 가지 도구를 고려한다:

WhatsHap [5]: 리드 기반 phasing의 표준 도구로, 정확한 SNP 기반 phasing을 수행한다. VCF phasing과 BAM haplotagging이 별도의 단계로 수행된다.
HiPhase [6]: PacBio에서 개발한 도구로, SNV, indel, SV, tandem repeat을 동시에 phasing하며, phased VCF와 haplotagged BAM을 한 번에 출력한다. 멀티스레딩을 지원하여 대규모 데이터 처리에 유리하다.

두 도구의 성능 비교 벤치마크가 필요하며, 프로젝트 초기에 동일 데이터셋에 대한 비교 분석을 수행할 것을 권고한다.

Step 5: CpG Site별 Methylation Score 산출 (pb-CpG-tools)

pb-CpG-tools를 사용하여 각 CpG site에서의 modification score를 산출한다. Haplotype-tagged BAM을 입력으로 사용할 때, haplotype 옵션을 활성화하여 HP1, HP2, 그리고 전체(total) 리드 각각에 대해 독립적으로 methylation score를 계산한다. 각 site에서 methylated 리드 수와 unmethylated 리드 수를 기반으로 mod score를 산출한다.

Step 6: 세그먼트 분석 및 ASM Annotation

전체 리드 기반으로 methylated/unmethylated 영역을 세그먼트화하고, haplotype 간 CpG site별 mod score 차이를 계산하여 Allele-Specific Methylation (ASM) 영역을 식별한다 [7]. ASM 판정은 각 샘플 내 HP1과 HP2의 mod score 차이를 전체 샘플에 걸쳐 평균한 뒤, 사전 정의된 임계값과 비교하여 수행한다.

주의사항: CpG site에 SNP이 존재하여 cytosine이 다른 염기로 치환된 경우, 해당 site의 methylation 정보가 소실될 수 있다. 이는 bisulfite 기반이 아닌 kinetic 기반 검출의 특성으로, variant calling 결과와 교차 검증하여 해석에 주의해야 한다.

3.2 Variant Calling 및 Haplotype Phasing

위 Step 3–4에서 기술한 바와 같이, DeepVariant를 통한 small variant calling과 WhatsHap/HiPhase를 통한 phasing이 표준 절차이다. Multi-sample 프로젝트에서는 joint genotyping 후 phasing을 수행하는 것을 권고한다.

3.3 Structural Variant 검출

Structural variant (SV) 검출을 위해 다음 도구들을 고려한다:

Sniffles2 [8]: 롱리드 기반 SV caller의 표준으로, population-level SV calling 및 genotyping을 지원한다. 중간 수준의 SV 검출 sensitivity를 제공하여 balanced한 결과를 산출한다.
cuteSV [9]: alignment 기반의 빠르고 민감한 SV 검출 도구로, 대규모 유전체 프로젝트에 적합하다.

기존 KMAP 내부 평가에서 Sniffles가 중간 수준의 SV를 안정적으로 콜링하는 특성을 보여, 표준 도구로 채택된 바 있다.

3.4 De Novo Assembly

커버리지가 30–40x 이상인 경우, hifiasm [10]을 사용한 haplotype-resolved de novo assembly를 수행한다. De novo assembly 결과는 레퍼런스 유전체에 매핑하여 SV calling의 정확도를 보완할 수 있으며, 특히 complex structural variant의 해석에 효과적이다. 커버리지가 20x 미만인 경우에는 assembly 없이 reference-based alignment만으로 분석을 진행한다.

4. MAS-ISO-Seq 롱리드 전사체 파이프라인

MAS-ISO-Seq (Multiplexed Arrays Sequencing Isoform Sequencing)은 PacBio HiFi 시퀀싱 기반의 롱리드 RNA 시퀀싱 기술로, 실험 단계에서 여러 full-length cDNA를 어댑터로 연결(concatenation)하여 시퀀싱 처리량을 증대시킨 뒤, 분석 단계에서 개별 transcript로 분리하는 방법이다 [11].

4.1 리드 전처리

Step 1: Adapter Demultiplexing (Skera)

Skera를 사용하여 concatenated 리드를 개별 transcript로 분리한다. MAS-ISO-Seq 어댑터 서열을 타겟으로 각 연결 지점을 인식하고 절단한다.

Step 2: Primer Removal (LIMA)

LIMA를 사용하여 5'/3' 프라이머 및 어댑터 서열을 제거한다. 시퀀싱 업체에 따라 이 단계가 이미 완료된 상태로 데이터가 제공될 수 있으므로, 파이프라인의 시작점을 유연하게 설정해야 한다.

4.2 Isoform 식별 및 정량화

Step 3: Isoform Clustering 및 Collapsing

전처리된 리드를 레퍼런스 유전체에 정렬한 후, 유사한 리드를 그룹화하여 isoform별로 clustering하고, 각 isoform의 발현 수를 정량화한다. 이 단계에 사용 가능한 도구는 다음과 같다:

IsoSeq3 collapse (PacBio 공식 도구)
IsoQuant [12]: reference-based 및 reference-free 모드를 모두 지원하며, false positive 비율이 낮은 것으로 보고되었다.
FLAIR2 [13]: alignment, collapse, quantification을 통합 수행하며, isoform FASTA 및 GTF 파일을 출력한다.

4.3 구조적 Annotation 및 품질 관리

Step 4: Isoform 분류 (Pigeon / SQANTI3)

식별된 isoform을 레퍼런스 전사체(GTF)와 비교하여 구조적 카테고리를 부여한다:

FSM (Full Splice Match): 레퍼런스와 모든 splice junction이 완전히 일치
ISM (Incomplete Splice Match): 레퍼런스와 splice junction이 일치하나 5'/3' 말단 exon이 부분적으로 누락
NIC (Novel In Catalog): 기존 splice site의 새로운 조합 (novel junction)
NNC (Novel Not in Catalog): 새로운 splice site를 포함하는 완전히 novel한 junction

SQANTI3 [14]는 이러한 분류에 더하여, transcript 모델의 품질 지표(TSS, TES, splice junction 신뢰도 등)를 산출하고, 아티팩트 필터링 기능(SQANTI QC, SQANTI filter)과 rescue 모듈을 제공한다.

4.4 Isoform 필터링 전략

롱리드 전사체 분석에서 가장 큰 과제 중 하나는 신뢰할 수 있는 isoform의 선별이다. 현재 이 영역에 대한 표준화된 방법론은 확립되지 않았으며, 도구에 따라 식별되는 isoform 수가 10배 이상 차이날 수 있다.

권고하는 전략은 다음과 같다:

다중 도구 비교: IsoSeq3, IsoQuant, FLAIR2 등 복수의 도구를 동일 데이터에 적용하여 각 도구의 isoform 식별 특성을 파악한다.
교집합(Ensemble) 전략: 복수 도구에서 공통적으로 검출되는 isoform을 높은 신뢰도의 isoform으로 채택한다.
SQANTI3 기반 필터링: SQANTI QC/filter를 적용하여 아티팩트를 제거하고, novel transcript의 신뢰도를 평가한다.
발현량 기반 필터링: 저빈도(1–2 count) isoform에 대한 임계값을 설정한다. 다만, 저빈도 isoform의 생물학적 의미를 완전히 배제할 수 없으므로, 별도의 proteomics 기반 검증(peptide 수준)을 권고한다.

향후 과제: Isoform 필터링 기준의 확정을 위해, 벤치마크 데이터셋을 구축하고 다중 도구 비교 결과를 기반으로 프로젝트 표준 임계값을 선정하는 작업이 필요하다.

5. 싱글셀 RNA 시퀀싱 파이프라인

싱글셀 RNA 시퀀싱 파이프라인은 다음의 표준 절차를 따른다:

Raw Data Processing: Cell Ranger를 사용하여 raw FASTQ로부터 셀별 gene expression matrix를 생성한다.
Quality Control: 세포별 유전자 수, UMI 수, 미토콘드리아 유전자 비율 등을 기준으로 저품질 세포를 필터링한다.
Integration: 다중 샘플/배치 간 통합(integration)을 수행하며, 최적의 통합 방법을 벤치마킹을 통해 선택한다.
Dimensionality Reduction 및 Clustering: UMAP을 통한 차원 축소 및 세포 유형 분류를 수행한다.

6. 파이프라인 구현 및 배포

6.1 워크플로우 관리 시스템: Nextflow

모든 파이프라인은 Nextflow [15]를 사용하여 구현한다. Nextflow는 다음과 같은 이점을 제공한다:

다양한 HPC 스케줄러(SLURM, PBS, SGE 등) 및 클라우드 환경과의 호환성
Docker/Singularity 컨테이너를 통한 소프트웨어 의존성 관리
재현 가능한 워크플로우 실행
스케줄러 충돌 문제의 최소화

6.2 유연한 시작점 설계

시퀀싱 업체마다 데이터 전처리 수준이 상이하므로(예: Jasmine 태깅 완료 여부, LIMA 처리 완료 여부), 파이프라인은 다양한 시작점(entry point)에서 실행을 개시할 수 있도록 설계한다. 자동 감지 로직을 통해 입력 데이터의 전처리 수준을 판별하고 적절한 단계부터 실행을 시작하는 것을 목표로 한다.

6.3 프로토콜 배포 전략

시퀀싱 업체 간 데이터의 일관성을 확보하기 위해, 파이프라인 프로토콜(소프트웨어 버전, 파라미터, 레퍼런스 데이터 정보)을 문서화하여 계약 업체에 배포한다. 이를 통해 데이터 생산 단계에서부터 표준화를 시행한다.

7. 시각화 전략

7.1 메틸레이션 시각화

Box Plot: 특정 유전자/region 내 CpG site 또는 CpG island의 methylation score를 샘플 그룹별로 시각화
Scatter Plot with Gene Model: CpG site별 평균 methylation score를 유전자 모델과 함께 표시하며, methylated/unmethylated segment 및 ASM 영역을 색상으로 구분 (GTEx [16] 참조)

7.2 전사체 시각화

유전자별 TPM 기반 violin/box plot (샘플 그룹 비교)
다중 유전자 median TPM 기반 heatmap
Isoform별 발현량과 유전자 모델의 통합 시각화
Exon/junction 수준의 heatmap

7.3 싱글셀 시각화

Tissue (X축) × Cell Type (Y축) 매트릭스 형태의 dot plot
색상: expression level, 원 크기: cell fraction, 원 둘레: specificity

주의: Whole genome 수준의 single-base methylation 시각화는 웹 서비스에서의 연산 부하를 사전에 검증해야 한다.

8. 결론 및 향후 계획

본 백서는 KMAP 분자지도 프로젝트의 롱리드 시퀀싱 데이터 표준 분석 파이프라인의 초안을 제시한다. 주요 분석 모듈(whole genome 메틸레이션, 전사체, 싱글셀)에 대한 도구 선택, 파라미터 설정, 그리고 품질 관리 전략을 정의하였다.

향후 해결해야 할 핵심 과제는 다음과 같다:

WhatsHap vs HiPhase 벤치마크: 동일 데이터셋에 대한 phasing 정확도 및 속도 비교
Isoform 필터링 표준 확립: 다중 도구 비교를 통한 교집합/앙상블 전략 검증
실제 조직 데이터 검증: Cell line 데이터 기반 best practice를 autopsy 조직 데이터에 적용하여 파이프라인의 견고성 평가
GRCh38 서브 버전 확정: 다기관 간 사용할 정확한 레퍼런스 파일 확정
웹 시각화 연산 최적화: Single-base 수준 methylation 데이터의 웹 서비스 제공 가능성 검증
메틸레이션-전사체 통합 분석: RNA methylation 패턴을 활용한 isoform 예측 모델 탐색

본 파이프라인은 프로젝트 진행에 따라 지속적으로 업데이트되며, 버전 관리를 통해 분석 재현성을 보장할 것이다.

9. 참고문헌

Wenger AM, Peluso P, Rowell WJ, et al. Accurate circular consensus long-read sequencing improves variant detection and assembly of a human genome. Nat Biotechnol. 2019;37(10):1155-1162. DOI
Gershman A, Sauria MEG, Guitart X, et al. Epigenetic patterns in a complete human genome. Science. 2022;376(6588):eabj5089. DOI
Li H. Minimap2: pairwise alignment for nucleotide sequences. Bioinformatics. 2018;34(18):3094-3100. DOI
Poplin R, Chang PC, Alexander D, et al. A universal SNP and small-indel variant caller using deep neural networks. Nat Biotechnol. 2018;36(10):983-987. DOI
Martin M, Ebert P, Marschall T. Read-Based Phasing and Analysis of Phased Variants with WhatsHap. Methods Mol Biol. 2023;2590:127-138. DOI
Holt JM, Saunders CT, Rowell WJ, et al. HiPhase: jointly phasing small, structural, and tandem repeat variants from HiFi sequencing. Bioinformatics. 2024;40(2):btae042. DOI
O'Neill K, Pleasance E, Fan J, et al. Long-read sequencing of an advanced cancer cohort resolves rearrangements, unravels haplotypes, and reveals methylation landscapes. Cell Genomics. 2024;4(11):100674. DOI
Smolka M, Paulin LF, Grochowski CM, et al. Detection of mosaic and population-level structural variants with Sniffles2. Nat Biotechnol. 2024;42(10):1571-1580. DOI
Jiang T, Liu S, Cao S, Wang Y. Structural Variant Detection from Long-Read Sequencing Data with cuteSV. Methods Mol Biol. 2022;2493:137-151. DOI
Cheng H, Concepcion GT, Feng X, Zhang H, Li H. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm. Nat Methods. 2021;18(2):170-175. DOI
Zajac N, Zhang Q, Bratus-Neuenschwander A, et al. Comparison of single-cell long-read and short-read transcriptome sequencing via cDNA molecule matching: quality evaluation of the MAS-ISO-seq approach. NAR Genom Bioinform. 2025;7(3):lqaf089. DOI
Prjibelski AD, Mikheenko A, Joglekar A, et al. Accurate isoform discovery with IsoQuant using long reads. Nat Biotechnol. 2023;41(7):915-918. DOI
Tang AD, Soulette CM, van Baren MJ, et al. Full-length transcript characterization of SF3B1 mutation in chronic lymphocytic leukemia reveals downregulation of retained introns. Nat Commun. 2020;11:1438. DOI
Pardo-Palacios FJ, Arzalluz-Luque A, Kondratova L, et al. SQANTI3: curation of long-read transcriptomes for accurate identification of known and novel isoforms. bioRxiv. 2023. DOI
Di Tommaso P, Chatzou M, Floden EW, et al. Nextflow enables reproducible computational workflows. Nat Biotechnol. 2017;35(4):316-319. DOI
GTEx Consortium. The GTEx Consortium atlas of genetic regulatory effects across human tissues. Science. 2020;369(6509):1318-1330. DOI
Guizard S, Miedzinska K, Smith J, et al. nf-core/isoseq: simple gene and isoform annotation with PacBio Iso-Seq long-read sequencing. Bioinformatics. 2023;39(5):btad150. DOI

출판