
생물학만 죽어라 팠던 제가 공과대학에 앉아 수학을 하고, 코드 편집기 화면을 보게 만든 친구를 소개해보려 합니다.
AlphaFold
이제 생물학을 떠나보내고 비전 연구자로 거듭나기 위해 공학자 꿈나무의 시선으로 이 논문을 읽고 여기에 리뷰를 적어보려 합니다. Structural biology의 세부 지식보다는, AlphaFold가 풀고 있는 Task의 본질과 그 안에 담긴 AI / 3D reconstruction 관점의 아이디어에 집중해보겠습니다.
왜 AlphaFold인가?
시퀀스에서 3D 구조로

생물학과 학부 전공하고 있을 때였어요. 단백질의 기능을 이해하려면 그 3D 구조를 알아야 한다는 것은 교과서의 기본이었죠.
문제는 하나의 단백질 구조를 실험적으로 결정하는 데 수개월에서 수년이 걸린다는 것이었습니다. 알려진 단백질 시퀀스는 수십억 개에 달하지만, 실험적으로 구조가 밝혀진 것은 약 10만개에 불과합니다.
AlphaFold는 이 간극을 AI로 메우겠다는 시도입니다. 핵심 질문은 놀랍도록 단순해요.
아미노산 서열(1D 시퀀스)만으로 단백질의 3D 구조를 예측할 수 있나?
이 질문을 일반화해보죠.
이것은 본질적으로 1D 정보로부터 3D 구조를 복원하는 문제입니다. 나는 이 프로그래밍이 내가 지금 공부하고 있는 3D Reconstruction 분야, NeRF가 2D 이미지들로부터 3D 장면을 복원하고, 3D Gaussian Splatting이 포인트 클라우드로부터 렌더링 가능한 3D 표현을 만드는 것과 깊이 연결된다고 느꼈습니다. 입력과 출력의 모달리티는 다르지만, 불완전한 저차원 관측으로부터 고차원 3D 구조를 추론한다는 문제의 본질은 동일하다고 봅니다.
AlphaFold 2
진화 정보와 기하학적 추론의 결합
전체 파이프라인 개요

AlphaFold 2의 파이프라인은 크게 세 단계로 나뉩니다.
- 입력 처리
- 타겟 시퀀스에 대해 진화적으로 관련된 서열들(MSA, Multiple Sequence Alignment)을 검색하고, 구조가 알려진 유사 단백질(templates)을 찾습니다.
- Evoformer(48 blocks)
- MSA 정보와 잔기 쌍(pair) 정보를 반복적으로 교환하며, 어떤 잔기들이 3D 공간에서 가까운가에 대한 가서을 점진적으로 정제합니다.
- Structure Module(8 blocks)
- Evoformer가 만들어낸 pair representation을 바탕으로 실제 3D 원자 좌표를 생성합니다.
여기서 핵심 인사이트를 볼 수 있습니다.
AlphaFold는 구조 예측을 그래프 추론 문제로 봅니다. 잔기들이 노드이고, 잔기 간의 공간적 관계가 엣지인 그래프에서, 관측 가능한 상관관계(MSA)로부터 관측 불가능한 3D 기하학적 관계를 추론하는 겁니다.
Evoformer
왜 진화 정보가 3D 구조 정보를 알려주는가?

Evoformer는 AlphaFold 2의 핵심 엔진입니다.
이를 이해하려면 먼저 왜 진화 정보(MSA)가 3D 구조를 알려주는지를 이해해야 합니다.
수백만 년의 진화 과정에서 단백질의 3D 구조를 유지하기 위해 공간적으로 가까운 잔기들은 함께 변이(co-evolution)하는 경향이 있습니다. 예를 들어, 두 잔기가 3D 공간에서 접촉하고 있다면, 한쪽이 크기가 큰 아미노산으로 바뀔 때 다른 쪽도 작은 아미노산으로 바뀌어 공간적 충돌을 피하는 식입니다. MSA에[서 이런 공변이(covariation) 패턴을 읽으면, 3D 공간에서의 접촉 관계를 추론할 수 있죠.
Evoformer는 두 가지 representation을 동시에 진화시켜요.
- MSA representation ($N_{seq} * N_{res} * c$): 각 서열의 각 위치에 대한 정보
- Pair representation ($N_{res} * N_{res} * c$): 잔기 $i$와 잔기 $j$ 사이의 관계 정보
이 둘 사이에 정보가 지속적으로 교환되는데, 특히 pair representation 내부에서는 triangle operations가 핵심입니다. 이는 잔기 $i$ - $j$ 사이의 거리, $j$ - $k$ 사이의 거리가 주어졌을 때, $i$ - $k$ 사이의 거리는 삼각 부등식을 만족해야 한다는 기하학적 제약을 네트워크에 내재화한 겁니다.
컴퓨터 그래픽스 관점에서 이를 재해석하면
이것은 본질적으로 pairwise distance matrix로부터 3D 좌표를 복원하는 문제에 기하학적 일관성(geomatric consistency) 제약을 부여하는 겁니다. Multi-view Stereo에서 여러 뷰 간의 기하학적 일관성을 epipolar contraint로 강제하는 것과 개념적으로 유사합니다.


Structure Module은 Evoformer가 정제한 pair representation을 받아서 실제 3D 좌표를 출력합니다.
여기서 가장 주목할 아이디어는 Invariant Point Attention(IPA)
IRA의 핵심은 일반적인 attention은 추상적인 feature space에서만 동작하지만, IPA는 3D 공간의 점(point)을 query, key, value에 추가합니다. 각 잔기의 local frame에서 3D 점들을 생성하고, 이를 global frame으로 변환해서 attention을 계산한 뒤, 다시 local frame으로 되돌립니다.
이 과정이 보장하는 것은 SE(3)-invariance
전체 분자를 회전하거나 이동해도 예측이 바뀌지 않는 겁니다. 3D reconstruction에서 canonical coordinate system이 없는 상황에서 일관된 예측을 하기 위해 equivariance / invariance가 필요한 것과 같은 맥락이죠.
또한 AlphaFold 2는 각 잔기를 독립적인 rigid body(rotation + translation)로 표현하는 residue gas 개념을 사용합니다. 처음에는 모든 잔기가 원점에 있다가, Structure Module을 반복적으로 적용하면서 점진적으로 올바른 3D 위치로 이동합니다. 이것은 chain 구조를 일시적으로 무시함으로써 모든 부분을 동시에 국소적으로 정제(local refinement) 할 수 있게 해줍니다.
학습 구조의 점진적 정제

AlphaFold 2에서 인상적인 관찰 중 하나는 네트워크가 점진적으로 구조를 정제(iterative refinement)한다는 겁니다. 연구진은 48개 Evoformer block 각각에 별도의 structure module을 붙여서 중간 결과를 시각화했는데, 초기 블록에서는 대략적인 topology만 잡히다가 후반 블록으로 갈수록 세밀한 구조가 완성되었습니다.
SARS-CoV-2 ORF8 같은 어려운 타겟은 네트워크의 거의 전체 깊이를 사용해서야 최종 구조에 도달한 반면, 더 쉬운 타겟은 초기 몇 블록만 정답에 수렴했습니다. 이러한 coarse-to-fine한 정제 과정은 NeRF에서 coarse network가 대략적인 geometry를 잡고 fine network가 세부를 다듬는 것과 개념적으로 닮았네요.
AlphaFold 2의 Sturcture Module은 단백질에 최적화된 표현(residue gas, torsion angle)을 사용합니다.
그런데 만약 단백질 뿐 아니라 리간드, 핵산, 이온까지 하나의 모델로 다뤄야 한다면 어떨까요?
이 domain-specific한 설계를 어떻게 일반화할 수 있을까요?
AlphaFold 3가 선택한 답은 diffusion입니다. 이는 다음 AlphaFold 3에서 다뤄보도록 할께요.
https://neverthe1ess.tistory.com/342
[논문 리뷰] Accurate structure prediction of biomolecular interactions with AlphaFold 3
AlphaFold 3 Diffusion으로의 전환AlphaFold 2에서 3로. 무엇이 바뀌었나. AlphaFold 3는 AlphaFold 2의 큰 틀을 유지하면서도 두 가지 근본적인 변화를 도입했습니다. MSA 처리의 대폭 축소AlphaFold 2의 Evoformer는 MS
neverthe1ess.tistory.com
'PAPER REVIEW' 카테고리의 다른 글
| [논문 리뷰] Denoising Diffusion Probabilistic Models / DDPM (0) | 2026.06.01 |
|---|---|
| [논문 리뷰] Accurate structure prediction of biomolecular interactions with AlphaFold 3 (0) | 2026.05.24 |
| [논문 리뷰] CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians (0) | 2026.05.13 |
| [논문 리뷰] 3D Gaussian Splatting for Real-Time Radiance Field Rendering (0) | 2026.04.17 |
| [논문리뷰] Segment Anything (0) | 2026.03.27 |
나의 성장 드라마
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!