[생물정보학 2] 차세대 시퀀싱(NGS)과 서열 정렬 기초

현대 생물학과 의학에서 **유전체 분석(Genomics)**과 **생물정보학(Bioinformatics)**은 빠질 수 없는 핵심 분야입니다. 이번 글에서는 1세대~3세대 시퀀싱 기술, 전장 유전체 분석(WGS), 서열 정렬(Global vs Local), BLAST의 원리를 정리해보겠습니다.


1. DNA 시퀀싱의 세대별 발전

🔬 1세대: 생거 시퀀싱 (Sanger Sequencing)

  • 원리: **ddNTP(디디옥시 뉴클레오타이드)**를 이용해 DNA 합성을 인위적으로 멈추게 하고 전기영동으로 조각 크기를 읽음.
  • 특징:
    • 정확도 최고(99.99%)
    • 읽기 길이: 500~1000 bp
    • 비용·시간 ↑ → 대규모 분석은 부적합

🔬 2세대: NGS (Next-Generation Sequencing)

대표 기술:

  1. Illumina 시퀀싱
    • Bridge PCR로 클러스터 생성, 형광 신호로 염기 판독
    • 장점: 대용량, 높은 정확도 (>99.9%)
    • 단점: 짧은 읽기 길이 (50–300 bp)
  2. Ion Torrent
    • DNA 합성 시 방출되는 H⁺ 이온(pH 변화) 검출
    • 빠른 분석 가능, 광학 장비 불필요
    • 단점: 동일 염기 반복(homopolymer) 오류
  3. MGI DNB 시퀀싱
    • DNA 나노볼(DNA Nanoball) 기반
    • 고밀도 배열, 높은 처리량

🔬 3세대: 장독립 시퀀싱(Long-read sequencing)

  1. PacBio SMRT
    • 실시간 단일분자 시퀀싱 (ZMW 기술)
    • 긴 읽기 길이(10~15 kb, 최대 100 kb 이상)
    • HiFi reads 사용 시 높은 정확도
  2. Oxford Nanopore (ONT)
    • DNA가 나노포어를 통과할 때 전류 변화를 측정
    • 장점: 초장 읽기 가능(수백 kb), 실시간 분석, 휴대성
    • 단점: 정확도는 낮지만 꾸준히 개선 중

2. Whole Genome Sequencing (WGS)와 의학적 의의

  • WGS는 개인의 전체 유전체를 분석하는 방법.
  • 목적: 맞춤형 의학 → 사람마다 작은 SNP(single nucleotide polymorphism), 변이들이 질병 감수성·약물 반응성에 큰 영향을 줌.
  • 최신 연구: Single-cell transcriptomics까지 확장, 세포 단위 전사체 분석 가능.

3. 유전자 관계 용어 정리

용어유래 방식종 간 관계기능 유사성예시
Homologs공통 조상 유전자가능다양Ortholog, Paralog 포함
Orthologs종 분화다른 종높음인간 vs 쥐 인슐린
Paralogs유전자 중복같은 종다를 수 있음인간 알파 vs 베타 혈색소
Ohnologs전체 유전체 중복같은 종다양식물 WGD 유전자
Homoeologs잡종 부모 유전자다른 종유사밀(wheat) 유전자

👉 시험이나 연구 발표에서 자주 혼동되는 부분이니 꼭 구분해두세요.


4. 서열 정렬 (Sequence Alignment)

📍 Global Alignment (전역 정렬)

  • 전체 서열을 처음부터 끝까지 정렬
  • Needleman–Wunsch 알고리즘 사용
  • 길이가 비슷한 서열 비교에 적합

📍 Local Alignment (부분 정렬)

  • 서열의 가장 유사한 구간만 정렬
  • Smith–Waterman 알고리즘 사용
  • 길이가 다르거나 일부만 유사할 때 적합

5. BLAST의 원리

BLAST(Basic Local Alignment Search Tool)는 가장 널리 쓰이는 서열 검색 도구입니다.

⚙️ 작동 방식

  1. Query 서열 입력
  2. Word matching (짧은 단어 단위로 DB 검색)
  3. 유사한 단어 주변 확장 → Local alignment 수행
  4. E-value 계산 → 통계적 유의성 평가

👉 E-value가 낮을수록 두 서열은 우연이 아닌, 진짜로 유사할 확률이 높습니다.


6. 품질 평가와 Phred Score

  • Phred score는 시퀀싱 정확도를 수치화한 지표.
  • 계산식: Q = –10 log₁₀ P (P는 오류 확률)
    • Q10 → 90% 정확도 (오류 확률 1/10)
    • Q20 → 99% 정확도 (오류 확률 1/100)
    • Q30 → 99.9% 정확도 (오류 확률 1/1000)

👉 최신 WGS/NGS 데이터는 보통 Q30 이상을 품질 기준으로 사용합니다.


7. FAQ

Q1. ONT와 PacBio 중 무엇을 선택해야 할까요?

  • PacBio: HiFi reads → 정확도↑, 비용↑
  • ONT: 초장 읽기, 실시간 분석, 저렴, 정확도↓

Q2. Global vs Local alignment 언제 쓰나요?

  • Global: 두 서열 전체 비교 (비슷한 길이)
  • Local: 부분 유사성 탐색 (다른 길이, BLAST 기반)

Q3. NGS가 중요한 이유는?

  • 맞춤형 의학, 질병 원인 분석, 신약 개발, 마이크로바이옴 연구 등 모든 생명과학 응용에 필수

마무리

이번 [생물정보학 2] 글에서는 시퀀싱 기술 세대별 특징, WGS의 의학적 의미, 유전자 진화 관계 용어, 서열 정렬 및 BLAST 원리를 정리했습니다.
이제 다음 단계에서는 실제 데이터 처리(FASTQ 품질 관리, Trimming, Mapping)를 다뤄보겠습니다.

댓글 남기기