[생물정보학 1] DNA 시퀀싱과 생어(Sanger) 방식부터 NGS까지

유전학 연구는 오랫동안 표현형(Phenotype) 연구에 집중되어 왔습니다. 하지만 개인마다 가진 유전자가 다르기 때문에 표현형만 비교해서는 한계가 있었죠. 결국 핵심은 정확한 DNA 서열을 읽는 것, 즉 DNA Sequencing입니다.

이번 글에서는 DNA 시퀀싱의 역사와 **1세대 생어 시퀀싱(Sanger sequencing)**부터 차세대 염기서열분석(NGS, Next Generation Sequencing), 그리고 최신의 3세대 시퀀싱까지 정리해 보겠습니다.

Table of Contents

1. 왜 DNA 서열 분석이 중요한가?

인간 DNA는 대부분 유사하지만, **아주 작은 차이(SNPs, 변이)**가 표현형과 질병 차이를 만듭니다.
따라서 정확한 DNA 서열 분석은 유전 질환 연구, 맞춤 의학, 바이오 연구의 핵심입니다.
과거에는 유전자 서열을 알 수 없어 제한적 연구만 가능했지만, 이제는 NGS와 빅데이터 분석으로 가능성이 열렸습니다.

2. 생어 시퀀싱(Sanger Sequencing, 1세대)

원리

1977년 Frederick Sanger가 개발.
DNA 합성 과정에서 **특수한 ddNTP (ddATP, ddTTP, ddGTP, ddCTP)**를 사용해 합성을 인위적으로 중단.
전기영동으로 DNA 조각들을 분리 → 가장 짧은 조각이 맨 아래, 긴 조각이 위에 쌓이면서 염기서열 판독 가능.

왜 4개 반응을 따로 해야 할까?

각 ddNTP가 특정 염기(A, T, G, C)에서 합성을 멈추게 하기 때문에 4가지 혼합물을 각각 만들어야 합니다.
결과적으로 주형 DNA의 상보적 서열을 얻을 수 있고, 이를 다시 해석해 주형 서열을 확인합니다.

한계

하루에 약 936 sample (0.936 Mbp/day) 정도 처리 가능 → 매우 느림.
대장균 같은 5Mbp 게놈을 분석하려면 10배 coverage (50Mbp) 필요 → 1대의 기계로는 50일 이상 소요.
인간 유전체 분석에는 사실상 불가능 → 차세대 시퀀싱의 필요성 대두.

3. 시퀀싱에서 발생하는 문제들

Low quality: 서열의 시작과 끝은 정확도가 떨어짐.
Ambiguous nucleotides (불명확한 염기): 빛의 감도로 인해 TT 연속 서열 등을 구분 못하는 경우 → R, Y, S, W 등으로 표시.
일부 경우 유용할 수 있으나, 보통은 trimming으로 제거.

4. 차세대 시퀀싱 (NGS, 2세대)

NGS는 **병렬적(sequencing in parallel)**으로 수많은 DNA 조각을 동시에 읽어내는 기술입니다.
이로 인해 속도는 빨라지고, 비용은 급격히 감소했습니다.

주요 기술들

🔹 Pyrosequencing (Roche 454)

원리: 염기 삽입 시 방출되는 PPi(무기인산) 검출.
특징: 긴 읽기 길이(700~1000bp), 실시간 판독 가능.
단점: 반복 서열에 약하고 비용이 높음.

🔹 Ion Torrent

원리: 염기 추가 시 발생하는 H⁺ 이온(pH 변화) 감지.
장점: 빠르고 저렴.
단점: 반복 서열에 약함.

🔹 Illumina Sequencing-by-Synthesis

원리: **가역적 종결자(reversible terminator)**를 이용해 한 번에 1염기씩 판독.
장점: 높은 정확도, 짧은 읽기 길이(150~300bp), 대량 병렬 처리.
현재 가장 많이 사용되는 시퀀싱 플랫폼.

🔹 MGI (DNA Nanoball Sequencing)

원리: Rolling Circle Replication으로 DNA 증폭 후 DNA 나노볼 형성 → 고밀도 배열.
특징: 고속, 저비용, 중국 BGI 그룹에서 개발.

5. 3세대 시퀀싱 (Third Generation Sequencing)

3세대 시퀀싱은 한 분자의 DNA를 직접(real-time) 읽는 방식입니다.
PCR 증폭이 필요 없고, 매우 긴 읽기 길이를 제공합니다.

🔹 PacBio SMRT (Single-Molecule Real-Time)

원리: **Zero-Mode Waveguide (ZMW)**에서 단일 DNA 합성을 실시간 관찰.
장점: 초장기 읽기 길이(10~30kb), 메틸화 같은 에피제네틱 정보까지 감지 가능.

🔹 Oxford Nanopore Sequencing

원리: DNA/RNA가 **나노포어(구멍)**를 통과할 때 전류 변화를 측정.
장점: 매우 긴 읽기 길이(100kb 이상), 휴대용 장치(MinION) 사용 가능, 실시간 분석.
PCR 증폭 없이 원래 DNA 그대로 읽기 가능.

6. Bioinformatics와 데이터 분석

DNA 시퀀싱이 발전하면서 가장 중요한 건 데이터 처리와 해석입니다.

Wet lab: DNA 추출, 증폭, 시퀀싱.
Dry lab (Bioinformatics):
- 데이터 전처리 (quality trimming, ambiguous nucleotides 처리)
- 서열 정렬 (alignment)
- 변이 분석 (SNP, INDEL 탐지)
- 유전체 조립 (assembly).

NGS의 발전은 단순히 기계의 성능 문제가 아니라, **빅데이터와 생물정보학(Bioinformatics)**의 발전 덕분입니다.

7. 정리

생어 시퀀싱: 정확하지만 느리고 비쌈. (1세대)
NGS: 병렬 처리, 빠르고 저렴, 현재 주류. (2세대)
3세대 시퀀싱: 초장기 읽기, 실시간, PCR 불필요.

👉 DNA 시퀀싱 기술의 발전은 인류가 유전체를 이해하고, 질병을 진단하고, 맞춤 치료로 나아가는 데 핵심적인 역할을 합니다.

✍️ 이번 글은 생명과학 공부노트 2편 (DNA 시퀀싱) 이었습니다.
다음 글에서는 Bioinformatics 분석 파이프라인을 다뤄보겠습니다.