Off-target 예측: 유전자 편집에서 “의도치 않은 변화”를 미리 계산하고 줄이는 방법
유전자 편집에서 off-target(오프타깃)이란, 우리가 노린 표적(on-target) 말고 비슷한 다른 위치(또는 다른 분자)에서 편집이 일어나 원치 않는 변이/발현 변화가 생기는 현상을 말합니다. 연구 단계에서는 데이터 해석을 흐릴 수 있고, 치료·산업 단계에서는 안전성과 직결되기 때문에, 최근에는 “편집 효율(잘 고쳤나?)”만큼이나 오프타깃을 예측하고 검증하는 과정이 필수 루틴이 되었습니다.
아래 글에서는 “오프타깃 예측”을 계산(in silico) 예측 → 실험 기반 검증 → 결과 해석과 우선순위화까지 한 흐름으로 정리합니다.
Off-target이 왜 생기는가
CRISPR-Cas9 같은 RNA-가이드 뉴클레이스 기반 편집은, 가이드 RNA가 표적 DNA 서열과 거의 맞으면 결합·절단이 일어납니다. 문제는 ‘거의 맞는’ 유사 서열이 유전체 곳곳에 존재한다는 점입니다. 특히 위치에 따라 몇 개의 미스매치(불일치)를 허용하거나, PAM 주변에서 예상보다 유연하게 결합하는 경우가 있어서, “이론상 안전한 gRNA”도 실제 세포에서는 오프타깃 절단을 만들 수 있습니다.
또한 오프타깃은 단순히 “gRNA가 엉뚱한 곳에 붙는다”만이 아닙니다. 편집 도구가 달라지면 오프타깃의 양상도 달라집니다.
- 뉴클레이스(Cas9 등): DNA 절단 오프타깃(DSB) → indel, 구조변이 가능성
- 염기교정(ABE/CBE): 절단은 적지만, deaminase가 일으키는 원치 않는 염기 변화(표적 밖 DNA 또는 RNA) 이슈가 따로 존재
- 프라임 편집(Prime editing): 전반적으로 오프타깃이 낮을 수 있다는 보고가 있지만, 여전히 미스매치 표적에서의 편집 가능성이나 설계에 따른 부산물 관리가 논의됩니다.
Off-target 예측이 중요한 3가지 이유
- 안전성(특히 치료·동물 실험)
오프타깃이 암 억제 유전자나 필수 유전자에 생기면, 아주 낮은 빈도라도 리스크가 커집니다. 그래서 규제·임상 관점에서는 “가능한 오프타깃 후보를 얼마나 체계적으로 찾고, 얼마나 잘 부정(없음을 입증)했나”가 중요해집니다. - 실험 결과의 해석 정확도
세포가 죽거나 표현형이 바뀌었을 때, 그 원인이 on-target 때문인지 off-target 때문인지 구분이 안 되면 논문/프로젝트 품질이 흔들립니다. 대규모 스크리닝에서는 저특이성 gRNA가 “가짜 히트”를 만들 수 있다는 점도 반복적으로 지적됩니다. - 비용 절감
오프타깃을 늦게 발견하면, gRNA부터 다시 설계·검증해야 합니다. 초기 단계에서 예측으로 후보를 좁히면 시간/NGS 비용이 크게 줄어듭니다.
Off-target 예측의 큰 분류: 계산 예측 vs 실험적 매핑
오프타깃 “예측”은 보통 두 축이 결합됩니다.
- 계산(in silico) 예측: 유전체에서 유사 서열을 찾아 후보를 뽑고 점수를 매김
- 실험 기반 매핑(assay): 실제로 절단/편집이 일어난 위치를 넓게 찾아 “정답지”를 만듦
실전에서는 보통 계산 예측으로 우선순위 → 실험으로 검증이 가장 많이 쓰입니다.
계산(in silico) 오프타깃 예측의 기본 원리
1) “유사 서열”을 전부 찾는다
가장 기본은, 내가 쓰는 gRNA(프로토스페이서)와 비슷한 서열을 유전체 전체에서 검색해 후보 오프타깃 좌표 목록을 만드는 것입니다.
이때 중요한 옵션은 다음입니다.
- 미스매치 허용 개수(예: 1~4개, 또는 그 이상)
- 대체 PAM 허용(Cas9 변형, Cas12a 등은 PAM 규칙이 달라짐)
- bulge(삽입/결실 형태의 불일치) 허용 여부: 실제로는 미스매치만이 아니라 “한 글자 비거나 끼는” 형태의 불일치로도 오프타깃이 잡힐 수 있어 이를 지원하는 도구가 있습니다.
대표적으로 Cas-OFFinder는 미스매치 수 제한이 비교적 유연하고 PAM 변형도 고려할 수 있는 오프타깃 검색 알고리즘으로 널리 쓰입니다.
또한 CRISPRitz는 미스매치뿐 아니라 DNA/RNA bulge까지 지원하고, 개인 변이(variant-aware)까지 고려하는 방향을 강조합니다.
2) 후보마다 “잘 잘릴 가능성”을 점수화한다
유사 서열 후보를 다 뽑았으면, 다음은 “그중 무엇이 진짜 위험한가?”를 가르는 단계입니다. 이때 널리 쓰이는 대표 점수 체계 중 하나가 CFD(Cutting Frequency Determination) score입니다.
CFD는 미스매치 위치와 종류에 따라 가중치를 주어 오프타깃 가능성을 계산하는 방식으로 제안되었고, 비교 연구에서 MIT score 대비 성능이 좋다고 보고된 바 있습니다.
3) “세포 맥락”을 반영하려는 시도: 크로마틴·전사 상태
최근 흐름은 단순 서열 유사도만이 아니라, 크로마틴 접근성(열려 있나), 프로모터/인핸서인지, 전사 중인지 같은 정보를 더해 예측 정확도를 높이려는 것입니다.
예를 들어 CHANGE-seq 연구는 많은 gRNA에 대해 오프타깃을 광범위하게 프로파일링하고, 오프타깃이 활성 프로모터/인핸서/전사 영역 주변에서 더 잘 나타날 수 있음을 보고하며, 오프타깃 예측을 위한 머신러닝 모델 학습에도 활용했다고 설명합니다.
대표 오프타깃 예측/설계 도구들
“어떤 툴을 쓰면 되나요?”에 대한 답은 하나가 아니라, 목적별로 조합하는 것이 현실적입니다.
- CRISPOR: 다양한 스코어링 체계를 통합해 gRNA를 평가하고 오프타깃 후보를 예측하는 웹 기반 도구로 소개됩니다.
- CHOPCHOP: gRNA 타깃 선정과 다양한 편집 목적(노크아웃 등)에 맞춘 설계를 지원하는 웹 툴로 널리 인용됩니다.
- CRISPRdirect: 오프타깃을 최소화하는 타깃 서열 선택을 위해 유전체 전체에서 “배타적인(특이적인) 후보”를 찾는 방향을 강조합니다.
- Cas-OFFinder / CRISPRitz: 대량 검색·커스텀 유전체·bulge·개인 변이까지 고려하는 “로컬/배치 처리”에 강점이 있습니다.
딥러닝 머신러닝 기반 오프타깃 예측이 뜨는 이유
전통 점수(CFD 등)는 강력하지만, 결국 “사람이 정한 규칙”의 한계가 있습니다. 그래서 최근에는 대규모 실험 데이터를 학습해, 미스매치 조합·서열 문맥·세포 맥락을 더 잘 반영하는 머신러닝 모델이 발전해왔습니다. 이런 흐름을 정리한 리뷰도 존재하며, CFD와 함께 Elevation, DeepCRISPR 같은 접근들이 언급됩니다.
또한 편집기가 “절단”이 아닌 “염기 변화”를 만드는 방식으로 확장되면서, 예측도 단순 오프타깃 좌표가 아니라 ‘그 자리에서 어떤 염기가 얼마나 바뀌는가(결과 분포)’를 예측하는 방향으로 진화했습니다.
- BE-DICT: ABE/CBE의 염기교정 결과를 예측하는 attention 기반 모델로 소개됩니다.
- BE-Hive: CBE/ABE 편집 결과의 서열 결정 요인을 학습하는 모델로 언급됩니다.
이런 도구들은 “오프타깃 사이트를 어디서 찾나”와는 다른 층위이지만, 실제 안전성에서는 오프타깃 후보 각각에서 ‘어떤 부산물’이 생길지까지 예측하는 쪽이 점점 중요해지고 있습니다.
프라임 편집에서도 오프타깃 예측이 필요한가
프라임 편집은 DSB를 강제하지 않고 “써 넣는” 방식이라 오프타깃이 상대적으로 낮을 수 있다는 맥락에서 자주 언급됩니다. 다만 프라임 편집도 완전히 예외는 아니며, 특히 미스매치 표적에서의 편집 가능성(특이성)을 데이터로 측정하고 예측하는 연구 흐름이 있습니다.
예를 들어 DeepPrime-Off는 프라임 편집에서 오프타깃 효과를 예측하는 모델로 소개됩니다.
실험 기반 오프타깃 탐지법: “예측을 검증하는 정답지 만들기”
계산 예측은 빠르지만 “놓치는 오프타깃”이 있을 수 있습니다. 그래서 중요한 프로젝트(특히 치료·임상 전 단계)에서는 실험 기반으로 오프타깃을 넓게 찾는 방법이 쓰입니다. 대표적인 방법들을 큰 흐름만 정리하면:
1) 세포 내(in cell) DSB 포착: GUIDE-seq
GUIDE-seq는 세포에서 발생한 DSB에 짧은 dsODN이 삽입되는 특성을 이용해, 오프타깃 절단 위치를 genome-wide로 찾는 방법으로 제시되었습니다. 또한 해당 연구는 truncated gRNA가 오프타깃을 줄일 수 있음을 보여주는 결과도 포함합니다.
2) 시험관(in vitro) DNA 절단 기반: CIRCLE-seq / Digenome-seq / CHANGE-seq
- CIRCLE-seq: in vitro에서 절단된 위치를 고감도로 찾는 방법으로 소개되며, 개인 SNP에 따른 특이성 프로파일링 가능성도 언급됩니다.
- Digenome-seq: in vitro Cas9 처리 후 WGS로 절단 신호를 읽는 방식의 genome-wide 오프타깃 프로파일링 기법으로 소개됩니다.
- CHANGE-seq: 많은 타깃에 대해 광범위 오프타깃을 생성·측정하고, 예측 모델 학습과 크로마틴 맥락 분석까지 연결한 연구로 잘 알려져 있습니다.
3) ‘세포 안에서 실제로’ 잡는 방법: DISCOVER-seq, in vivo 확장
DISCOVER-seq는 DSB 수선 인자(MRE11)의 모집을 ChIP-seq로 추적해 오프타깃을 찾는 접근으로 소개되었고, in vivo 환경에서의 적용 가능성도 강조됩니다.
또한 **DISCOVER-Seq+**처럼 민감도를 더 끌어올린 변형도 보고됩니다.
그리고 동물 개체에서 더 직접적으로 오프타깃을 평가하기 위한 GUIDE-tag 같은 방법도 제시된 바 있습니다.
오프타깃 예측 결과를 “실제로 쓸 수 있게” 해석하는 법
오프타깃 예측 도구는 보통 수십~수천 개 후보를 내놓습니다. 이걸 그대로 다 검증하는 건 불가능하니, 우선순위 기준이 필요합니다.
- 유전자 기능 우선순위: 코딩 엑손, 종양억제유전자/필수유전자, 기능성 도메인 근처를 우선 평가
- 조절 영역 우선순위: 프로모터/인핸서/활성 전사 영역(세포 맥락에 따라 위험이 달라질 수 있음)
- 점수 기반 우선순위: CFD 등 높은 위험 점수 후보부터
- 개인 변이(variant-aware): 개인 SNP가 “새로운 오프타깃”을 만들 수 있으므로, 임상 맥락에서는 개인 유전체 기반 평가가 중요해질 수 있음
실전 워크플로우: 오프타깃을 줄이는 “안전 중심” 설계 루틴
아래는 연구·개발에서 흔히 쓰는 흐름을, 너무 실험 지시가 되지 않도록 “전략” 관점으로 정리한 것입니다.
- 후보 gRNA를 여러 개 만든다(처음부터 1개에 올인하지 않기)
- CRISPOR/CHOPCHOP 같은 툴로 1차 스크리닝(온타깃 점수 + 오프타깃 후보 확인)
- Cas-OFFinder/CRISPRitz로 조건을 바꿔 재탐색(bulge/변이/PAM 조건 포함)
- 상위 위험 오프타깃 후보를 표적 시퀀싱으로 확인(최소 검증)
- 필요 시 GUIDE-seq/CHANGE-seq/DISCOVER-seq 같은 genome-wide 방법으로 확장 검증
- 결과를 바탕으로 가이드 재설계 또는 특이성 향상 변형/전달 전략(예: 노출 시간 단축)을 검토
이 중 2~3번만 잘해도, “나중에 오프타깃 때문에 처음부터 다시” 확률이 눈에 띄게 줄어듭니다.
오프타깃 예측의 한계: “예측은 예측일 뿐”인 이유
오프타깃 예측이 발전해도, 다음 한계는 남아 있습니다.
- 세포 타입/크로마틴 상태에 따라 결과가 바뀜: 같은 gRNA라도 어떤 세포에서는 열려 있고 다른 세포에서는 닫혀 있을 수 있습니다.
- 툴마다 ‘찾는 방식’이 다름: 미스매치 허용, PAM 취급, bulge 처리 방식이 달라 결과가 달라질 수 있습니다.
- 편집기 종류가 달라지면 오프타깃 정의도 달라짐: 염기교정은 “절단 위치”가 아니라 “원치 않는 염기 변화”가 핵심이므로 평가 축이 늘어납니다.
- 희귀 오프타깃(아주 낮은 빈도): 매우 낮은 빈도의 사건은 어떤 방식으로도 놓칠 수 있어, 프로젝트 요구 수준에 맞는 검출 민감도 설계가 필요합니다.
앞으로의 트렌드: 오프타깃 예측은 “통합 모델”로 간다
최근 방향은 대체로 이렇습니다.
- 서열 유사도 점수(예: CFD)만이 아니라, 크로마틴·전사·개인 변이까지 묶어 예측하는 방향
- 뉴클레이스뿐 아니라 염기교정·프라임 편집까지 포함해 “편집 결과 분포”와 “오프타깃 위험”을 함께 다루는 방향
- 실험 측정도 in vitro → in cell → in vivo로 옮겨가며, 실제 치료 조건과 더 가까운 평가가 늘어나는 추세
FAQ
Off-target 예측은 어떤 단계에서 하는 게 가장 좋나요?
가능하면 gRNA를 확정하기 전, 즉 “설계 후보를 여러 개 만들고 고르는 단계”에서 하는 것이 가장 효율적입니다. CRISPOR 같은 도구는 이 목적(가이드 선택과 오프타깃 예측)에 맞춰 설계된 것으로 소개됩니다.
CFD 점수만 믿고 가도 되나요?
CFD는 널리 쓰이고 성능이 좋다고 보고된 바 있지만, 세포 맥락/전달/편집기 종류에 따라 예외가 생깁니다. 가능하면 CFD 같은 점수 + (bulge/변이까지 포함한) 재탐색 + 최소한의 실험 검증을 함께 권장합니다.
GUIDE-seq 같은 실험을 꼭 해야 하나요?
프로젝트 목적에 따라 다릅니다. 기초 연구에서는 표적 시퀀싱으로 충분할 때도 있지만, 치료·안전성이 핵심인 경우에는 GUIDE-seq/CHANGE-seq/DISCOVER-seq 같은 genome-wide 평가가 유용합니다.
프라임 편집은 오프타깃이 거의 없나요?
상대적으로 낮을 수 있다는 맥락은 있지만, 여전히 “미스매치 표적에서의 편집 가능성”처럼 특이성 이슈를 데이터로 다루는 연구가 있고, 이를 예측하는 모델(DeepPrime-Off)도 소개됩니다.