본문 바로가기
생명정보학

생명정보학의 기본, 시퀀싱과 시퀀싱 결과에 대한 이해

by 웅곰박 2022. 5. 9.
반응형

생명정보학에서 가장 근본이 되는 분석은 DNA의 염기서열을 분석하는 것입니다. 이를 행하기 위해 DNA 염기서열을 시퀀싱 (sequencing)을 하게 됩니다. DNA 염기서열 결정 과정은 DNA에서 뉴클레오타이드가 나열되는 순서인 염기서열을 결정하는 단계입니다. DNA 염기서열에는 A, G, C, T, 즉, 아데닌, 구아닌, 사이토신 그리고 티민의 4종류의 염기가 순서를 결정해서 3개의 염기가 트리플렛 코드를 구성하여 하나의 아미노산이 됩니다. 이러한 트리플렛 코드들이 많이 모여서 결과적으로 하나의 단백질을 나타내는 코드가 되게 되는 것이죠. 상기 트리플렛 코드는 코돈이라고 합니다. 인간의 단백질은 약 20여 가지 종류의 아미노산을 이용해 적절한 펩타이드 결합을 통해서 구성하게 됩니다.

이렇게 인간 및 생명체를 구성하는 기본이 되는 DNA 염기서열을 알아내는 것이 시퀀싱입니다. 정상적인 염기서열과 다양한 질병을 가진 염기서열을 비교하여 해당 염기서열들의 돌연변이 등을 통해 질병들의 진단 및 치료에 대한 이론적 가능성을 연구할 수 있게 되는 것이죠. 처음으로 상용화된 DNA 시퀀싱 방법은 생어 시퀀싱이라고 할 수 있겠습니다. 이론적인 방법이야 복잡한 과정을 거치게 되는데, 이를 알 필요까지는 없어 보이고, 그냥 단순하게 생명체의 염기서열을 알아내는 방법이라고만 생각하면 됩니다.

현대 사회에 들어서 시퀀싱을 하는 방법이나 시퀀싱을 돌리는 기계는 발전을 많이 했는데, 이 중 가장 대표적이라고 할 수 있는 Illumina사의 시퀀싱만 우선 알면 될 것 같습니다. 어찌 됬든 시퀀싱을 했다고 치고, 시퀀싱 결과인 FASTQ 파일을 들여다보면 아래와 같습니다.

시퀀싱 결과인 FASTQ 파일의 구성 정보

- 첫 번째 줄은 '@'로 시작이 되면서 고유의 정보를 가지는 서열 인식문자가 기록됨.
- 두 번째 줄은 서열정보가 기록됨.
- 세 번째 줄은 +와 함께 첫 번째 줄과 같이 서열 인식문자가 기록됨.
- 네 번째 줄은 각 서열에 대한 품질 값을 아스키코드로 기록하며, 서열 문자와 같은 수의 기호를 포함해야 한다고 함.

그럼 실제 파일로 예시를 살펴보죠.

 

실제 시퀀싱 결과인 FASTQ 파일의 예시

 

솔직히 시퀀싱 관련 기계를 다룬다면 위 내용을 잘 알아야 할 수도 있지만, 필자와 같이 생명정보학 분석자들은 크게 생각할 필요가 없는 부분이라고 생각합니다.

위와 같이 FASTQ 파일은 .fastq.gz 로 압축되어 만들어지는데, 용량이 수 기가에서 수백 기가바이트까지 갈 수 있으므로 컴퓨터에 용량이 아주 많이 필요하게 된다. 이제 이와 같은 파일들을 다루기 시작하는 데에는 unix 또는 linux 기반의 시스템에서 만져야 하는데, 이 내용은 다음 글에서 대략적으로 설명하도록 하겠습니다.

반응형