현대 생물학과 의학에서 **유전체 분석(Genomics)**과 **생물정보학(Bioinformatics)**은 빠질 수 없는 핵심 분야입니다. 이번 글에서는 1세대~3세대 시퀀싱 기술, 전장 유전체 분석(WGS), 서열 정렬(Global vs Local), BLAST의 원리를 정리해보겠습니다.
1. DNA 시퀀싱의 세대별 발전
🔬 1세대: 생거 시퀀싱 (Sanger Sequencing)
- 원리: **ddNTP(디디옥시 뉴클레오타이드)**를 이용해 DNA 합성을 인위적으로 멈추게 하고 전기영동으로 조각 크기를 읽음.
- 특징:
- 정확도 최고(99.99%)
- 읽기 길이: 500~1000 bp
- 비용·시간 ↑ → 대규모 분석은 부적합
🔬 2세대: NGS (Next-Generation Sequencing)
대표 기술:
- Illumina 시퀀싱
- Bridge PCR로 클러스터 생성, 형광 신호로 염기 판독
- 장점: 대용량, 높은 정확도 (>99.9%)
- 단점: 짧은 읽기 길이 (50–300 bp)
- Ion Torrent
- DNA 합성 시 방출되는 H⁺ 이온(pH 변화) 검출
- 빠른 분석 가능, 광학 장비 불필요
- 단점: 동일 염기 반복(homopolymer) 오류
- MGI DNB 시퀀싱
- DNA 나노볼(DNA Nanoball) 기반
- 고밀도 배열, 높은 처리량
🔬 3세대: 장독립 시퀀싱(Long-read sequencing)
- PacBio SMRT
- 실시간 단일분자 시퀀싱 (ZMW 기술)
- 긴 읽기 길이(10~15 kb, 최대 100 kb 이상)
- HiFi reads 사용 시 높은 정확도
- Oxford Nanopore (ONT)
- DNA가 나노포어를 통과할 때 전류 변화를 측정
- 장점: 초장 읽기 가능(수백 kb), 실시간 분석, 휴대성
- 단점: 정확도는 낮지만 꾸준히 개선 중
2. Whole Genome Sequencing (WGS)와 의학적 의의
- WGS는 개인의 전체 유전체를 분석하는 방법.
- 목적: 맞춤형 의학 → 사람마다 작은 SNP(single nucleotide polymorphism), 변이들이 질병 감수성·약물 반응성에 큰 영향을 줌.
- 최신 연구: Single-cell transcriptomics까지 확장, 세포 단위 전사체 분석 가능.
3. 유전자 관계 용어 정리
| 용어 | 유래 방식 | 종 간 관계 | 기능 유사성 | 예시 |
|---|---|---|---|---|
| Homologs | 공통 조상 유전자 | 가능 | 다양 | Ortholog, Paralog 포함 |
| Orthologs | 종 분화 | 다른 종 | 높음 | 인간 vs 쥐 인슐린 |
| Paralogs | 유전자 중복 | 같은 종 | 다를 수 있음 | 인간 알파 vs 베타 혈색소 |
| Ohnologs | 전체 유전체 중복 | 같은 종 | 다양 | 식물 WGD 유전자 |
| Homoeologs | 잡종 부모 유전자 | 다른 종 | 유사 | 밀(wheat) 유전자 |
👉 시험이나 연구 발표에서 자주 혼동되는 부분이니 꼭 구분해두세요.
4. 서열 정렬 (Sequence Alignment)
📍 Global Alignment (전역 정렬)
- 전체 서열을 처음부터 끝까지 정렬
- Needleman–Wunsch 알고리즘 사용
- 길이가 비슷한 서열 비교에 적합
📍 Local Alignment (부분 정렬)
- 서열의 가장 유사한 구간만 정렬
- Smith–Waterman 알고리즘 사용
- 길이가 다르거나 일부만 유사할 때 적합
5. BLAST의 원리
BLAST(Basic Local Alignment Search Tool)는 가장 널리 쓰이는 서열 검색 도구입니다.
⚙️ 작동 방식
- Query 서열 입력
- Word matching (짧은 단어 단위로 DB 검색)
- 유사한 단어 주변 확장 → Local alignment 수행
- E-value 계산 → 통계적 유의성 평가
👉 E-value가 낮을수록 두 서열은 우연이 아닌, 진짜로 유사할 확률이 높습니다.
6. 품질 평가와 Phred Score
- Phred score는 시퀀싱 정확도를 수치화한 지표.
- 계산식: Q = –10 log₁₀ P (P는 오류 확률)
- Q10 → 90% 정확도 (오류 확률 1/10)
- Q20 → 99% 정확도 (오류 확률 1/100)
- Q30 → 99.9% 정확도 (오류 확률 1/1000)
👉 최신 WGS/NGS 데이터는 보통 Q30 이상을 품질 기준으로 사용합니다.
7. FAQ
Q1. ONT와 PacBio 중 무엇을 선택해야 할까요?
- PacBio: HiFi reads → 정확도↑, 비용↑
- ONT: 초장 읽기, 실시간 분석, 저렴, 정확도↓
Q2. Global vs Local alignment 언제 쓰나요?
- Global: 두 서열 전체 비교 (비슷한 길이)
- Local: 부분 유사성 탐색 (다른 길이, BLAST 기반)
Q3. NGS가 중요한 이유는?
- 맞춤형 의학, 질병 원인 분석, 신약 개발, 마이크로바이옴 연구 등 모든 생명과학 응용에 필수
마무리
이번 [생물정보학 2] 글에서는 시퀀싱 기술 세대별 특징, WGS의 의학적 의미, 유전자 진화 관계 용어, 서열 정렬 및 BLAST 원리를 정리했습니다.
이제 다음 단계에서는 실제 데이터 처리(FASTQ 품질 관리, Trimming, Mapping)를 다뤄보겠습니다.