본 게시글은 학부 강의 '생물정보학(Bioinformatics)'를 토대로 필자가 이해한 내용을 정리하였습니다.
Genomics와 Transcriptomics. 여기에는 연구진들이 현재 가장 활발하게 연구되어 있고 가장 많이, 쉽게 이용할 수 있다. 그렇다면 이 데이터들이 어떻게 나오는지 알아야 하지 않겠는가?
앞서 배운 여러 장비들을 이용해서 우리가 데이터를 생산한다. 그래서 정리된 sequencing data를 열면 아래와 같은 4줄의 data를 확인할 수 있다.
이 4줄이 한 쌍이다. 무조건 4줄 단위로 해야 한다. 이 4줄이 Read 하나. DNA, RNA를 '읽었다'는 것.
이 데이터를 자르거나 분할하거나 할 때에는 무조건 4줄 단위로 해야한다.
Short-read, Long-read 모두 4줄이다. 다만 Long-read는 위의 리드보다 훨씬 길 뿐이다.
- Short-read : 100 ~ 150 bp. 100이면 전부 100으로 범위는 같다.
- Long-read : 길이가 정해지지 않았다. 길이의 제한이 없고, 오류가 나서 짧게 읽어지면 Short-read 보다도 짧은 Long-read가 생산이 될 수 있다. 즉 짧다고 해서 무조건 Short-read가 아니라는 점을 기억하자.
- 첫 번째 줄
- 좌표, ID를 나타낸다. @ 자체의 의미가 at을 내포하고 있다. 이것은 이메일 등에서도 통용되는 의미이다. 좌표를 보면 7 종류로 표현한 것을 볼 수 있다. 그만큼 복잡하다는 것. 이 좌표를 통해서 어느 부분의 데이터인지 알 수 있는 것이다.
- 중간에 1:11101:6167:1036 을 보면 가장 왼쪽 1 은 왼쪽에서 읽었음을 의미한다. 과거에는 Left라고 작성되었지만 너무 길어서 현재는 1로 쓰고 있다. DNA에서 왼쪽은 5'. 반대로 오른쪽에서 읽었으면 2 라고 작성될 것이다. 2, 오른쪽은 3' 방향. 따라서 5' 쪽만 읽은 것을 Single End read 라고 한다. 1과 2가 같이 있다면 Paired End read라고 한다. Paired End read는 같은 좌표에서 두 개가 생산된 것. 결국엔 하나의 DNA에서 나온 것이다. 정리하면, 1번은 5' 에서 읽은 것. 2'은 3' 에서 읽은 것이라고 인지하면 된다. 그리고 1번과 2번은 항상 짝으로 다녀야 한다. 짝으로 혼자 존재하면 안된다. 추후에 우리가 전사체 데이터를 다운받아 분석을 하게 되면 1번 파일이 있을 것이고, 2번 파일이 있을 것이다.
- 두 번째 줄
- 우리가 원하는 서열이 나열되어 있다. 중간 중간 보이는 N은 A, T, G, C 중에 무엇인지 모른다는 것이다. 즉, Sequencing error. 이는 틀린 것, 모르는 것 모두 포함한다. 어떻게 N인지 알 수 있는지는 4번 째 줄을 통해 알 수 있다.
- 세 번째 줄
- 세 번째 줄을 기준으로 1,2 번째 줄과 4번 째 줄은 분리가 가능하다. 이처럼 세 번째 줄에 (+)가 있다면 1, 2번째 줄과 4번 째 줄은 분리가 된 적이 없다는 것이다. 하지만 (+)가 없고 1번 째 줄과 동일한 좌표가 그대로 적혀있다면 이는 분리가 되었다가 다시 붙였음을 의미한다.
- 네 번째 줄
- 여러가지 기호가 혼합되어 작성되어진 것을 볼 수 있다. 이것을 Phred score 라고 한다.
- 위 그림에서 0부터 약 40까지 숫자가 매겨진 것을 볼 수 있는데 이것이 Phred. 통계학자의 이름인데 이러한 에러를 표현하는 방법을 고안한 사람으로서 이 사람의 이름을 따서 만든 Score이다. 원래는 0 ~ 40점까지 점수가 매겨지지만 현재는 41점까지 있다.
Phred Score
Phred Score : 틀릴 확률이다. 정확히는 틀릴 확률을 (-) 지수로 바꾼 지수이기 때문에 숫자가 클수록 정확도가 높아진다.
Sanger(S)
Sanger는 Phred 33을 사용한다. SSS가 나열된 범위를 보았을 때 ! 부터 I까지를 보았을 때, 대문자가 나오면 정확한 것이다. 하지만 특수기호가 나온 부분은 정확하지 않다는 의미이다. 어느 부분이 Sanger인데 그 부분이 #이라면 #은 score가 0, 1, 2 점 즉, 40점 만점에 2점이라는 건 완전 틀렸다고 볼 수 있다. 완전 틀렸다는 뜻은 무엇인지 모르겠다는 것. 그리고 뒷부분을 보았을 때, 알파벳 대문자를 볼 수 있다. A, E 등등. 점수가 매우 높다. 과거에는 20점만 높으면 신뢰할 수 있었지만 지금은 기술력이 향상해 10점만 넘어도 정확하다고 간주한다. 요즘은 기술이 좋기 때문에 20점 밑으로 내려가는 경우가 많이 없다고 한다. 너무 정확한 나머지 30점 이상이 많다고...
Solexa(X)
Solexa라는 회사에서 만든 sequencer 제품은 위 그림에서 보이듯이 중간 부분의 범위가 해당한다. 이 회사의 경우에는 소문자 알파벳이 정확하다는 의미를 가진다. 대문자 알파벳이 나오면 부정확하다는 것.
이 부분을 잘 인지해야 한다. 학부생인 필자의 경우, 내가 만든 데이터가 아닌 다른 연구진들이 만들어놓은 데이터를 가져다 사용할텐데 최근 데이터를 사용하면 문제가 없지만 과거 데이터를 사용하게 되면 같은 대문자여도 Sanger와 혼동될 수 있기 때문이다. 즉, 데이터에 따라 같은 대문자여도 천지차이라는 것. 잘못보고 정확하다 오인하는 경우가 생기면 안된다. 정확하지 않은 데이터는 다 다 버려야 한다.
정리해보자.
우리는 DNA 또는 RNA를 읽고 이를 표현하였다. 이를 리드(read)라고 한다. 그래서 Read 서열이다. 이러한 리드가 수천만 개가 동시에 생산이 된다. 이를 우리는 NGS(Next Generation Sequencing)라고 한다.
Short read, Long read 모두 4줄 임은 같다.
'BIOLOGY > Bioinformatics' 카테고리의 다른 글
DNA 온라인 스토어 (4) | 2024.10.20 |
---|---|
데이터 만들기 a.k.a 데이터 생산 (3) | 2024.10.19 |
저는 NGS를 하고 싶어요. (0) | 2024.10.18 |
생명과학의 미래, NGS(차세대 염기서열 분석) (2) | 2024.10.15 |
바이오 빅데이터의 종류와 활용 (4) | 2024.10.13 |
나의 성장 드라마
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!