AlphaFold 3(알파폴드 3)는 단백질 단일 구조 예측을 넘어, 단백질이 DNA/RNA, 리간드(약물 후보 포함), 이온, 변형 잔기(PTM) 등과 어떻게 상호작용하는지까지 한 번에 다루려는 방향으로 확장된 모델입니다. 논문에서는 확산(diffusion) 기반의 업데이트된 아키텍처로, 단백질·핵산·소분자·이온·변형 잔기를 포함한 복합체의 “공동 구조(joint structure)” 예측을 목표로 한다고 설명합니다.
아래 글은 “AlphaFold 3로 단백질 구조 예측을 어떻게 활용하면 좋은지”를 중심으로, 입력 준비 → 실행 → 결과 해석 → 한계/주의점 → 재현성/라이선스 순서로 정리한 3,000자 이상 분량의 블로그용 실전 글입니다.
AlphaFold 3가 ‘단백질 구조 예측’에서 달라진 핵심 포인트
AlphaFold 3는 AlphaFold 2와 비슷한 큰 틀(예: MSA 활용)을 유지하면서도, 복합체·다종 분자 예측을 위해 내부 표현과 구조 생성 방식이 크게 달라졌습니다. 특히 EBI의 학습 자료는 다음 변화를 강조합니다.
- 원자 좌표를 직접 예측(atomic coordinates): AlphaFold 2는 아미노산 잔기/측쇄 중심 프레임을 두고 구조를 구성했지만, AlphaFold 3는 복합체 내 개별 원자 좌표를 더 직접적으로 다룹니다.
- 토큰(token) 기반 표현 확장: 단백질 잔기 1개가 토큰 1개인 경우가 많지만, 리간드는 “원자 단위 토큰”이 될 수 있습니다. 그래서 신뢰도 지표(PAE 등)도 아미노산이 아니라 토큰 기준으로 계산됩니다.
- 확산(diffusion) 기반의 생성 모델: 구조를 “하나의 답”처럼 찍어내기보다, 노이즈에서 시작해 점진적으로 구조를 복원해 가는 확산 모듈로 여러 샘플을 생성합니다. 기본적으로 “시드 1개당 5개 샘플”이 생성되는 식입니다.
이 변화는 단백질 구조 예측을 더 유연하게 만들지만, 동시에 “정답처럼 보이는 구조”가 언제든 잘못될 수 있음을 전제로 결과를 읽어야 한다는 뜻이기도 합니다.
AlphaFold 3를 쓰는 방법 2가지: AlphaFold Server vs 로컬 실행
실제로 AlphaFold 3를 활용하는 경로는 크게 두 갈래로 나뉩니다.
- AlphaFold Server(웹 기반)
Google DeepMind는 AlphaFold Server를 통해 비상업적 연구 목적의 무료 접근을 제공한다고 안내합니다.
EBI 튜토리얼 기준으로는 단백질 서열/FASTA 입력부터 복합체 구성, PTM 추가, 제출까지 UI 흐름이 정리돼 있어 입문에 가장 쉽습니다. - AlphaFold 3 소스코드 + (조건부) 모델 파라미터(가중치) 사용
DeepMind는 학술(academic) 용도로 코드·가중치 접근을 제공하는 방향을 안내하고 있으며, 모델 파라미터 사용은 이용약관 제약이 큽니다.
입력 준비: 단백질 구조 예측 정확도를 올리는 ‘사전 정리’ 체크리스트
1) 서열 품질이 전부의 시작
AlphaFold Server에서는 단백질을 표준 1-letter 아미노산 코드로 입력해야 하며, B/J/O/U/X/Z 같은 비표준 문자는 지원되지 않습니다. DNA/RNA도 각각 허용 문자(A,C,G,T / A,C,G,U)만 허용됩니다.
- 실전에서 자주 생기는 실수:
- 신호펩타이드/프로펩타이드 등 “성숙 단백질”과 다른 구간을 그대로 넣음
- 아이소폼(isoform) 혼동으로 실험과 다른 서열을 사용
- 융합태그(tag)·링커를 제거하지 않아 구조가 이상해짐
→ 해결법은 단순합니다. 실험에서 쓰는 정확한 서열(construct)을 기준으로 예측을 돌리세요.
2) 단량체 vs 복합체: “무엇을 알고 싶나”를 먼저 결정
AlphaFold 3의 강점은 복합체입니다. 그래서 다음 질문을 먼저 해야 합니다.
- “나는 단백질 자체의 fold가 궁금한가?” → 단량체 중심
- “결합 파트너가 있을 때 구조가 달라지는가?” → 복합체(단백질-단백질 / 단백질-핵산 / 단백질-리간드)
특히 EBI 자료는 AlphaFold 3의 상호작용 신뢰도 지표(ipTM, pairwise ipTM, 인터서브유닛 PAE)를 함께 보라고 강조합니다.
AlphaFold Server로 예측하는 흐름: 복합체 구성까지 한 번에
AlphaFold Server 기준으로 입력은 다음처럼 확장할 수 있습니다.
- 복수 단백질/핵산을 FASTA로 한 번에 붙여넣기
- 동일 엔티티 복제(호모머): copies 값으로 조절
- 리간드/이온/PTM 추가: UI 목록에서 선택(3-letter 코드는 PDB Chemical Component Dictionary 기반)
- dsDNA 모델링: 한 가닥을 넣고 “Reverse complement”로 상보 가닥 추가
- 제출 단계에서 seed 자동/수동 선택을 통해 결과 다양성(샘플링) 조절
- 여기서 실전 팁 하나:
결합에 관여하는 보조因子(이온/리간드)**가 알려져 있다면, “단백질만” 넣지 말고 가능한 한 같이 넣어보세요. AlphaFold 3는 비폴리머(이온/안정화 리간드 등) 컨텍스트의 포함/제거에 따라 폴리머 신뢰도 점수가 크게 달라질 수 있다고 안내됩니다.
로컬 실행(코드)에서는 무엇을 더 세밀하게 조절할 수 있나
AlphaFold 3 코드의 입력 JSON은 서버 JSON과 별개이며, 다음과 같은 “고급 제어”가 가능합니다.
- 단백질/RNA의 커스텀 MSA 지정, 단백질 템플릿 지정
- 리간드 입력을 CCD 코드뿐 아니라 SMILES로도 가능
- 공유 결합(covalent bond) 정의(엔티티 간 결합 포함)
- 여러 랜덤 시드를 한 번에 지정해 구조 다양성 탐색
즉, “웹 UI에서 안 되는 케이스(특수 리간드, 공유결합 약물, 커스텀 MSA 등)”는 로컬 파이프라인이 더 적합합니다.
결과 해석의 핵심: ‘구조 그림’보다 신뢰도 지표를 먼저 보자
AlphaFold 3 결과를 보는 순서는 추천하자면 이렇습니다.
- 전체적으로 pLDDT가 어디가 높고 낮은지(로컬 품질)
- 도메인/체인 간 상대 위치가 믿을 만한지 PAE로 확인(글로벌/상대 배치)
- 복합체라면 인터페이스 신뢰도 ipTM / pairwise ipTM 확인
- 샘플이 여러 개인 경우, “왜 1등이 1등인지” ranking_score 근거 확인
pLDDT: “이 원자 위치, 믿어도 되나?”
EBI는 AlphaFold 3의 pLDDT를 원자(Per-atom) 단위 0–100 점수로 설명하며, 일반적으로 90 이상은 고신뢰, 50 미만은 그 부분이 틀렸을 가능성이 큼이라고 안내합니다.
또한 mmCIF 파일에서 pLDDT가 B-factor 필드에 저장돼 PyMOL 같은 툴로 색칠해 볼 수 있습니다.
PAE: “도메인/체인/리간드가 서로 어떤 위치 관계인지 믿을 만한가?”
PAE는 토큰 쌍 사이의 상대 위치 오차 추정치이며, 낮을수록 상대 배치 신뢰도가 높습니다. AlphaFold 3에서는 아미노산이 아니라 토큰 기준으로 PAE가 계산되어, 리간드/이온까지 포함한 상호작용 판단에 도움을 줍니다.
pTM / ipTM / pairwise ipTM: “복합체 전체와 인터페이스를 분리해서 보자”
EBI는 AlphaFold 3가 복합체를 목표로 하기 때문에 **상호작용 신뢰도 지표(ipTM 등)**를 중요하게 보라고 강조합니다.
로컬 출력 문서에서는 ipTM을 인터페이스 정확도 지표로 설명하며, 예시로 0.8 이상이면 고품질 상호작용일 가능성이 높고, 0.6 미만이면 실패 가능성이 크다는 식의 해석 가이드를 제공합니다(절대 기준은 아니고 ‘경향’으로 이해하는 게 안전합니다).
실전 활용 시나리오 4가지: 이렇게 쓰면 결과가 “연구에 연결”된다
1) 단백질 단량체 구조: 도메인 경계와 불확실 구간 찾기
- pLDDT가 낮은 구간은 무질서(IDR)일 가능성이 큽니다.
- “저신뢰 구간을 억지로 해석하지 않고”, 도메인 단위로 잘라 실험(절단체 발현, 구조결정) 설계에 활용하면 효율이 좋아집니다.
2) 단백질-단백질 상호작용(PPI): ipTM + PAE로 교차검증
- ipTM이 높더라도, PAE 플롯에서 체인 사이 블록이 전반적으로 높으면 “인터페이스가 흔들릴 수 있음”
- 여러 seed를 돌려 일관된 결합 모드가 반복되는지 확인
- 필요하면 안정화 리간드/이온을 함께 넣어 점수 변화를 관찰(AlphaFold 3는 비폴리머 컨텍스트에 민감할 수 있음)
3) 단백질-리간드: “도킹처럼 쓰되, 도킹처럼 맹신하지 말기”
AlphaFold 3 논문은 단백질-리간드 상호작용에서 기존 도킹 도구 대비 개선을 주장하며, 복합체 공동 예측을 중요한 성과로 제시합니다.
다만 리간드에서는 다음을 특히 주의하세요.
- 키랄리티(거울상 이성질체) 위반 가능성: EBI 자료는 PoseBusters 기준에서 키랄리티 위반률(예: 4.4%)을 언급하며, 리간드 입체화학 오류 가능성을 경고합니다.
- “그럴듯한 포즈”가 나와도, 실험 데이터(변이, 결합 상수, 구조, SAR)로 반드시 확인
4) 단백질-핵산(전사인자, RNP 등): dsDNA/수정 염기까지 고려
AlphaFold Server는 DNA/RNA 입력과 함께, 수정(chemical modifications)도 추가할 수 있고 dsDNA는 상보 가닥을 추가하는 방식으로 모델링할 수 있습니다.
이 경우에도 핵심은 PAE의 인터체인 블록과 pairwise ipTM로 “상호작용이 실제로 잡혔는지”를 확인하는 것입니다.
AlphaFold 3의 한계와 함정: 여기서부터는 “비판적 읽기”가 필수
EBI 자료가 정리한 한계는 단백질 구조 예측에 매우 직접적으로 적용됩니다.
- 동역학(dynamics)을 못 본다: PDB에 있는 “정적 구조”를 잘 맞추는 쪽이라, 용액에서의 움직임/다중 상태를 그대로 재현하지 못합니다. AlphaFold 3도 특정 서열(들)에 대해 단일 구조를 예측하는 경향이 있습니다.
- 리간드/입력 조건에 따른 ‘상태(state)’ 오류 가능: 예시로 E3 유비퀴틴 리가아제의 apo/holo 상태에서 실제로는 열린/닫힌 형태가 다른데도, AlphaFold 3가 둘 다 닫힌 형태로 예측하는 사례가 언급됩니다.
- 무질서 구간의 “환각(hallucination)”: 확산 기반 생성 모델 특성상, 무질서 영역에 가짜 규칙 구조(예: 헬릭스)가 생길 수 있고, 이때 pLDDT < 50이 중요한 경고 신호가 됩니다.
- 원자 충돌/체인 겹침(clash/overlap): 특히 호모머에서 체인이 통째로 겹치는 극단 오류가 보고됩니다.
요약하면, AlphaFold 3를 “정답 생성기”가 아니라 가설 생성기로 쓰는 태도가 가장 안전하고 생산적입니다.
재현성과 관리: 나중에 다시 검증할 수 있게 남겨야 할 것들
로컬 출력 문서는 결과 폴더에 어떤 파일이 생성되는지, 무엇이 “최종 top 모델”인지 명확히 설명합니다. 예를 들어 최종 구조는 mmCIF로 저장되며, ranking_scores.csv가 있고, 시드·샘플별 결과가 별도 디렉토리에 쌓입니다.
블로그/연구 노트에 최소한 아래는 남겨두면 좋습니다.
- 사용한 서열/복합체 구성(체인 순서 포함)
- seed 값(가능하면)과 실행 횟수
- 최종 모델의 pLDDT/PAE/ipTM 요약(스크린샷 1장만 있어도 좋음)
- “왜 이 모델을 채택했는지”의 근거(예: 인터페이스 PAE가 낮고 pairwise ipTM이 높아서)
라이선스와 사용 제한: 특히 ‘상업적 사용’은 조심해야 한다
AlphaFold 3 모델 파라미터(가중치) 이용약관은 요지가 명확합니다.
- 모델 파라미터/출력은 비상업적 목적(대학/비영리/연구기관 등)에서만 허용
- 상업 활동(상업기관을 위한 연구 포함)과 연계 금지
- 모델 파라미터(가중치)는 공유/공개 금지, 단 조직 내부 제한 공유만 허용
- AlphaFold 3 출력물을 유사한 생체분자 구조예측 ML 모델 학습에 사용 금지
또한 EBI/약관 모두 AlphaFold 3가 연구 도구이며 임상 목적 사용을 의도하지 않는다는 점을 강하게 고지합니다.
마무리: AlphaFold 3로 “예측”을 “연구 결과”로 바꾸는 방법
AlphaFold 3는 단백질 구조 예측을 더 넓은 맥락(리간드/핵산/복합체)에서 다루게 해 주는 강력한 도구입니다.
하지만 강력한 만큼, 결과를 “그럴듯한 그림”으로 끝내지 않으려면 다음이 필요합니다.
- 입력(서열/복합체 구성)을 정확히
- 신뢰도 지표(pLDDT/PAE/ipTM)를 먼저 보고
- 여러 seed/샘플로 일관성을 확인
- 실험/문헌/생물학적 맥락으로 검증
이 루틴을 습관처럼 가져가면, AlphaFold 3는 “구조 예측”을 넘어 가설을 빠르게 만들고 실험을 효율적으로 설계하는 도구가 됩니다.
'DNA' 카테고리의 다른 글
| 딥프라임(DeepPrime)이란 무엇인가 (0) | 2026.02.28 |
|---|---|
| ‘초소형 결합체(ultra-small binder)’ 설계: 항체보다 작지만, 표적을 강하게 잡는 분자를 만드는 법 (0) | 2026.02.28 |
| DNA 절단 없는 후성유전학적 편집: 유전체를 자르지 않고 “유전자 스위치”를 다시 배선하는 기술 (0) | 2026.02.28 |
| RNA 표적 유전자 가위: DNA를 자르지 않고 “메시지(RNA)”를 조작하는 CRISPR의 확장판 (0) | 2026.02.28 |
| 미토콘드리아 유전자 교정: mtDNA를 바꾸는 기술이 왜 어렵고, 어디까지 왔나 (0) | 2026.02.28 |