딥프라임(DeepPrime)이란 무엇인가

DNA

딥프라임(DeepPrime)이란 무엇인가

TOUTES 2026. 2. 28. 22:40

딥프라임(DeepPrime)은 프라임 편집(Prime Editing)에서 가장 골치 아픈 문제 중 하나인 pegRNA(Prime editing guide RNA) 설계 최적화를 돕기 위해 개발된 **딥러닝 기반 “편집 효율 예측 모델”**입니다. 같은 표적·같은 변이(교정 목표)라도 pegRNA의 PBS 길이, RTT(Reverse Transcription Template) 길이, 편집 위치 등 설계 조합에 따라 효율이 크게 달라지기 때문에, 실험실에서는 종종 수십~수백 개의 후보를 만들어 스크리닝해야 합니다. DeepPrime은 이 과정을 줄이기 위해 “어떤 설계가 잘 될 가능성이 높은지”를 점수(DeepPrime score) 형태로 예측해 주는 도구로 소개됩니다.

왜 이런 도구가 필요할까: 프라임 편집은 “설계 난이도”가 높다

프라임 편집은 DNA 이중가닥을 완전히 절단(DSB)하지 않고도 치환·소규모 삽입·결실 등을 구현할 수 있는 “검색-치환(search-and-replace)”형 유전체 편집 기술로 소개됩니다. 하지만 실전 적용에서 큰 병목은 낮거나 들쭉날쭉한 편집 효율입니다. 그래서 효율을 높이기 위한 전략(개량된 PE 단백질 사용, pegRNA 설계 개선, mismatch repair(MMR) 경로 조절, 전달 최적화 등)이 활발히 연구되어 왔고, 그중 pegRNA 설계 최적화는 거의 모든 프로젝트에 공통으로 등장하는 핵심 작업입니다.

DeepPrime은 바로 이 지점—“좋은 pegRNA를 얼마나 빨리, 얼마나 덜 시행착오로 찾느냐”—에 초점을 맞춘 모델입니다.

DeepPrime의 핵심 아이디어: “대규모 실험 데이터 → 딥러닝 예측 모델”로 전환

DeepPrime의 기반이 되는 연구(2023년 Cell 게재)는, 다양한 조건에서 프라임 편집을 수행한 결과를 대규모로 정리한 뒤 그 데이터를 학습해 편집 효율을 예측하는 모델(DeepPrime, DeepPrime-FT)을 만든 것으로 요약됩니다. 이 논문 초록에서는 총 338,996개 pegRNA–표적 서열 쌍(그중 3,979개는 epegRNA 포함)의 효율을 “error-free manner”로 평가했다고 밝히고 있습니다.

또한 DeepPrime/DeepPrime-FT가

8가지 프라임 편집 시스템,
7개 세포 타입,
최대 3 bp까지의 모든 편집 유형(치환/삽입/결실 등)
에 대해 효율을 예측하도록 개발됐다고 설명합니다.

즉, DeepPrime은 “특정 실험실 조건에서만 통하는 단일 규칙”이 아니라, 다양한 시스템·세포 맥락을 포함한 학습 데이터를 바탕으로 범용적으로 pegRNA 후보를 랭킹하려는 시도라고 볼 수 있습니다.

DeepPrime는 무엇을 예측하나: DeepPrime score의 의미

DeepPrime은 입력된 목표 편집에 대해 가능한 pegRNA 설계를 열거하고, 각각에 대해 예측 효율 점수(DeepPrime score)를 부여해 “상위 후보”를 빠르게 고르는 데 쓰입니다. GitHub 공식 저장소에서도 DeepPrime을 “prime editing efficiency prediction tool”로 정의하고, pegRNA 설계 조합의 범위를 크게 확장했다고 설명합니다.

또한 독립적인 도구 논문(SynDesign, 2024)에서도 DeepPrime/DeepPrime-FT를 CNN + GRU 기반 딥러닝 모델로 소개하며, 사람 유전체에서 특정 타깃에 대해 1–3 bp 치환/삽입/결실 편집 효율을 예측한다고 정리합니다.

모델이 보는 입력 특징: pegRNA 설계 파라미터(예: PBS/RTT 길이)까지 포함

DeepPrime이 유용한 이유는 단순히 “표적 서열만” 보는 것이 아니라, pegRNA의 핵심 구성 요소(스페이서, PBS, RTT)와 편집 위치/길이 같은 설계 변수를 함께 고려하도록 만들어졌기 때문입니다.

GitHub 저장소 README에는 DeepPrime 학습 범위가 비교적 구체적으로 제시돼 있습니다. 예를 들어 모델 학습에 사용된 pegRNA 설계 공간으로

PBS 길이 1–17,
RT 길이 1–50,
편집 위치 1–30,
편집 길이 1–3
등이 언급됩니다.

또 다른 관점에서, Nature Biotechnology의 PEmbryo 논문(2024)은 DeepPrime 계열 모델 사용 방법을 설명하면서, 편집 전/후를 지정하는 121-nt 서열 입력을 통해 모든 가능한 pegRNA 설계에 대한 DeepPrime score를 예측하고, 기본 제약으로 RTT 최대 40 nt, PBS 1–17 nt 범위를 사용했다고 밝힙니다.

정리하면, DeepPrime은 “단순한 서열 점수화”라기보다 설계 공간(Design space)을 함께 탐색하고, 그 결과를 점수로 정렬해 주는 도구에 가깝습니다.

DeepPrime, DeepPrime-FT, DeepPrime-Off: 이름이 의미하는 것

1) DeepPrime: 기본(범용) 예측 모델

다양한 PE 시스템/세포 타입에서의 대규모 데이터를 기반으로, 최대 3 bp 편집까지 예측하도록 설계된 모델로 소개됩니다.

2) DeepPrime-FT: “fine-tuning”된 조건 특화 모델

Cell 논문에서는 DeepPrime-FT가 DeepPrime과 함께 제시되며, 여러 조건에서의 효율 예측을 목표로 한다고 설명합니다.
특히 PEmbryo 논문은 DeepPrime-FT를 MMR 억제 조건(예: MLH1dn 활용)에서의 효율을 예측하도록 학습된 모델로 언급하고, 실제 마우스 배아 편집 효율과 DeepPrime-FT 예측 점수 사이의 상관을 보고합니다.

3) DeepPrime-Off: 오프타겟(또는 불일치 표적) 관련 예측 확장

Cell 논문(ScienceDirect 요약/하이라이트 및 PubMed 초록)에 따르면, 연구진은 불일치(mismatched) 표적에서의 프라임 편집 효율을 프로파일링하고, 이런 표적에서의 효율을 예측하는 모델도 개발했다고 밝힙니다.
또한 ScienceDirect 페이지 하이라이트에는 DeepPrime-Off가 prime editing의 off-target effects를 예측하는 모델로 요약되어 있습니다.

DeepPrime의 강점: “조건별 최적 pegRNA” 탐색 비용을 줄인다

DeepPrime의 장점은 한마디로 스크리닝 비용(시간/시약/NGS 비용)을 줄이는 방향으로 의사결정을 돕는다는 점입니다.

Cell 논문 초록 자체가 “효율이 부족해 최적 pegRNA와 PE를 찾는 데 많은 시간·자원이 든다”는 문제의식을 출발점으로 삼고 있습니다.
국내 대학/기관 소개 자료에서도, 기존에 많은 후보를 직접 제작·검증해야 했던 부담을 AI 모델이 줄여줄 수 있다는 취지로 DeepPrime/DeepPrime-FT/DeepPrime-Off를 설명합니다(“33만개 이상 데이터 확보” 및 모델 개발 언급).

다만, 여기서 중요한 태도는 “예측 점수 = 정답”이 아니라 “실험 후보를 좁히는 우선순위 도구”로 쓰는 것입니다. 특히 세포 타입, 전달 방식, PE 버전(PE2/PEmax/PE4/PE5 등), MMR 상태는 편집 결과에 큰 영향을 주기 때문에, 본인 실험 조건과 가장 가까운 모델/설정을 선택하는 게 핵심입니다.

DeepPrime 사용 방식: 웹툴과 파이썬(로컬) 2가지 흐름

1) 웹툴 기반: 빠르게 “상위 pegRNA 후보” 뽑기

GitHub 저장소는 DeepPrime 웹툴(app)이 “대부분의 응용을 기본 파라미터로 처리하고, 실험 조건에 맞는 PE 모델을 선택”하여 가능한 pegRNA를 평가하고 DeepPrime score로 랭킹한다고 소개합니다.

블로그 글 관점에서 독자가 이해하기 쉬운 활용 시나리오는 이런 형태입니다.

(1) 목표 편집(1–3 bp 치환/삽입/결실)을 정의
(2) 표적 서열(편집 전/후)을 입력
(3) 출력된 pegRNA 후보를 DeepPrime score 순으로 확인
(4) 상위 몇 개를 실제 실험에서 검증

PEmbryo 논문 “Methods” 파트도 유사한 흐름을 설명하며, 편집 전/후를 지정하는 121-nt 입력을 기반으로 모든 가능한 pegRNA 설계의 점수를 예측했다고 밝힙니다.

2) 파이썬/로컬 실행: 많은 타깃을 배치로 평가하기

공식 저장소는 DeepPrime을 로컬에서 실행하거나, GenET(Genome Editing Toolkit) 파이썬 패키지로 불러와 대량 후보를 평가하는 예시를 제공합니다.

예시(개념만 보여주는 형태):

from genet.predict import DeepPrime

seq = "…(원서열/변이표기)…"
result = DeepPrime(seq)
# result.features에서 pegRNA 후보와 각종 특징/점수 확인

(위 흐름은 GitHub README의 사용 예시를 단순화한 것)

설계·해석 팁: DeepPrime 점수를 “잘” 쓰는 방법

1) 내 실험 조건과 모델 조건을 맞춰라

DeepPrime 계열은 세포 타입/PE 시스템/MMR 억제 여부에 따라 예측 모델이 달라질 수 있습니다. 예를 들어 PEmbryo 논문은 MMR 억제(MLH1dn) 조건에서 학습된 DeepPrime-FT를 사용해 배아 데이터와의 상관을 평가합니다.

따라서 블로그 글에서는 이렇게 정리해 주면 좋습니다.

“가능하면 내가 쓰는 PE 버전(PEmax 등), MMR 억제 사용 여부, 세포 종류와 가장 가까운 설정을 고른다.”

2) DeepPrime는 “최대 3 bp 편집” 중심이라는 점을 명확히

PRIDICT2.0 논문(PMC 공개)에서는 DeepPrime이 non-NGG PAM을 예측할 수 있는 능력이 있지만, 편집 길이 ≤ 3 bp로 제한된다고 비교 설명합니다.

즉, 10 bp 이상의 삽입/결실이나 더 복잡한 편집 목표를 다룬다면, DeepPrime 단독이 아니라 다른 도구(또는 다른 모델 계열)를 함께 고려해야 합니다.

3) 점수 상위 후보라도 “최소 검증 실험”은 필수

프라임 편집 자체가 아직 개선이 진행 중인 기술이고, 효율을 끌어올리기 위한 여러 전략이 병행된다는 점(가이드 설계, MMR 조절, 전달 최적화 등)이 리뷰에서 강조됩니다.
그래서 DeepPrime의 점수는 매우 유용하지만, 최종적으로는 **실험 검증(온타겟 효율/부산물/오프타겟 평가)**을 통해 프로젝트 요구 수준을 충족하는지 확인해야 합니다.

다른 도구들과의 관계: DeepPrime는 “설계 생태계”의 한 축

DeepPrime는 단독으로도 의미가 있지만, 실제 워크플로우에서는 다음처럼 조합되는 경우가 많습니다.

PrimeDesign: 목표 편집을 입력하면 가능한 pegRNA/닉킹 gRNA 조합을 체계적으로 열거(enumerate)하는 도구로 소개됩니다. (예측 모델이라기보다 “설계 후보 생성/정리”에 강함)
SynDesign: SGE(포화 유전체 편집) 라이브러리 설계를 자동화하는 웹툴로, 생성된 pegRNA 후보들을 DeepPrime/DeepPrime-FT로 평가해 랭킹한다고 명시합니다.

PRIDICT2.0 등 다른 예측 모델: DeepPrime과 예측 범위(예: 3 bp 제한 여부), PAM 범위, 학습 데이터가 다르므로 “내 편집 목표에 맞는 모델”을 고르는 식으로 병행됩니다.

블로그 글에서 독자 만족도가 올라가는 포인트는, “DeepPrime가 최고다/아니다”보다 어떤 문제를 해결해 주는 도구인지를 구체적으로 짚어 주는 것입니다.

한계와 주의사항: 애드센스 글에서도 꼭 써야 할 문장들

예측은 실험을 대체하지 않는다
DeepPrime는 후보를 줄이는 데 강하지만, 결과는 실험 조건에 의해 크게 달라질 수 있습니다.
범위(특히 편집 길이 제한)를 명확히 하라
DeepPrime는 문헌에서 “최대 3 bp 편집” 중심으로 소개됩니다.
오프타겟/부산물 평가도 함께 고려하라
DeepPrime-Off처럼 오프타겟 관련 예측 확장이 소개되지만, 실제 안전성 평가는 일반적으로 추가 실험/분석이 요구됩니다.
윤리·안전·규정 준수
유전체 편집은 연구 윤리, 생물안전, 기관 IRB/IACUC 및 국가 규정을 준수해야 하며, 임상 적용은 전문 규제 체계 하에서만 진행돼야 합니다(블로그에도 안전문구로 권장).

결론: DeepPrime는 “프라임 편집의 시행착오”를 줄이는 실용 도구다

DeepPrime는 대규모 프라임 편집 효율 데이터를 바탕으로 pegRNA 설계를 점수화하고, 조건별로 더 유망한 후보를 빠르게 좁히도록 돕는 모델로 자리 잡았습니다. 특히 338,996 쌍 규모의 데이터 평가, 8가지 PE 시스템/7개 세포 타입/최대 3 bp 편집 예측이라는 스펙은 “프라임 편집 설계 자동화”가 왜 가능한지 보여주는 근거가 됩니다.

블로그 콘텐츠로는 다음 한 줄로 마무리해도 좋습니다.

FAQ

DeepPrime 점수(DeepPrime score)가 높으면 무조건 잘 되나요?

아닙니다. 점수는 후보 우선순위를 정하는 예측값이고, 실제 효율은 세포 상태·전달 방식·PE 버전·MMR 상태 등에 영향을 받습니다.

DeepPrime는 어떤 편집을 가장 잘 커버하나요?

문헌에서는 최대 3 bp 치환/삽입/결실을 예측하는 모델로 소개됩니다.

DeepPrime-FT는 무엇이 다른가요?

fine-tuning을 거친 모델로 소개되며, 특히 MMR 억제 조건에서의 예측과 연결해 언급되는 사례가 있습니다.

DeepPrime-Off는 “오프타겟”까지 예측하나요?

ScienceDirect 하이라이트에서 DeepPrime-Off가 off-target effects 예측 모델로 요약되어 있습니다. 다만 실제 안전성 평가는 추가 검증이 필요합니다.

PrimeDesign과 DeepPrime 중 무엇을 써야 하나요?

PrimeDesign은 가능한 설계 후보를 폭넓게 생성하는 데 강하고, DeepPrime는 그 후보를 효율 관점에서 랭킹/우선순위화하는 데 강합니다. 목적에 따라 함께 쓰는 경우가 많습니다.

저작자표시 비영리 변경금지 (새창열림)