“인공지능”… 구조 기반 신약개발
컴퓨터를 이용한 구조 기반 신약 개발 2010년대 후반 외부 환경의 영향으로 변곡점 발생, 바로 인공지능 인공지능 신약개발은 현재 거대 제약회사의 주 관심사 중 하나
[디지털비즈온 김맹근 기자] 약물은 어떻게 우리 몸에서 작용할까? 현대 생물학이 정립되면서 우리가 알게 된 사실에 따르면, 다수의 질병은 단백질의 기능 저하 또는 과다·과소 발현으로 발생한다. 우리가 알고 있는 약물들 중 대다수는 바로 해당 질병을 일으키는 표적 단백질과 결합하여 그 기능을 조절한다.
컴퓨터를 이용한 구조 기반 신약개발
사실 구조 기반 신약개발 과정이 그렇게 단순한 것은 아니다. 우선 표적 단백질을 찾아내야 하고, 어디에 어떤 약물이 결합해야 원하는 기능(저해 또는 증진)을 잘 수행할지 알아야 한다. 무엇보다도, 어렵게 찾아낸 약물이 우리 몸에 해롭지 않을지, 어떤 식으로 합성 및 보존이 가능할지 등등 여러 가지 요소를 모두 검증한 뒤에야 약물로서 쓰일 수 있게 된다.
컴퓨터가 구조 기반 신약개발에 활용된지는 40년이 넘게 되었다. 1982년 UCSF Dock[1]이 등장하여, 표적 단백질과 화합물 사이의 결합을 컴퓨터를 통해 시뮬레이션하는 이른바 “리간드 도킹”이 가능해졌다(리간드라 함은 단백질에 붙는 분자를 통칭하는 단어로, 여기서는 주로 화합물을 의미한다). 이 방법은 기본적으로는 “만약 두 화합물이 결합한다면 어떤 구조로 붙을 것인가”에 대한 예측을 제공한다.
컴퓨터가 수행하는 것은 “예측”이라는 점이다. 우리가 예측에만 의존하여 모든 과정을 진행할 수는 없으므로, 각 단계가 끝날 때마다 실험을 이용한 검증은 필수적인 단계가 된다. 즉 1번과 2번, 2번과 3번 사이에는 각각 유효, 선도 물질 여부를 검증하는 실험이 반드시 존재해야 한다. 바꿔서 현실적으로 얘기하자면, 실험이 주된 과정이고 컴퓨터는 그 과정에서 수많은 경우의 수를 줄여주는 보조 역할을 한다고도 얘기할 수 있겠다.
즉 수많은 “거짓 양성(False positives)”과 “거짓 음성(False negatives)”이 나오더라도, 컴퓨터를 이용한 후보군 선택이 동수의 임의 추출보다는 나을 것이라는 기대에 따른 것이다. 따라서 구조 기반 신약개발에 있어서 컴퓨터의 역할이 주인공이 될지, 아니면 조연이 될지는 방법의 예측 정확도에 따라 결정되게 된다. 그리고 최근까지 컴퓨터의 역할은 조연이었다.
인공지능의 접목을 통한 도약
컴퓨터는 신약개발에서 주인공으로 올라설 수 있을까? 달리 질문하자면, 어떻게 해야 구조 기반 신약개발을 위한 컴퓨터 방법의 예측력을 향상시킬 수 있을까? 지난 40여 년간 수많은 화학자와 약학자들이 노력했으나 발전 속도는 기대에 미치지 못하였다. 그러나 2010년대 후반에 이르러 외부 환경의 영향으로 변곡점이 발생하였다. 바로 인공지능이다.
단백질 구조예측의 해결은 2010년대 중반만 하더라도 인공지능이 과학에 쓰일 것이라는 생각은 소수의 희망적인 사람들의 것이었다. 이른바 딥러닝의 시대가 열리고 알파고가 등장하여 바둑계를 평정했을 때에도, 구글 포토에서 사진의 객체가 자동으로 인식 및 선별될 때에도 인공지능이 과학 연구를 도와줄 것이라는 기대는 하기 쉽지 않았다.
구조 기반 신약개발은 단백질 구조예측 문제의 연장선 상에 있다. 구조 기반 신약개발은 원자 수준의 단백질 구조를 반드시 필요로 하는데, 알파폴드-2의 등장과 동시에 구조가 밝혀지지 않은 사람 단백질 수 만개에 대해 높은 신뢰도의 예측 구조를 누구나 활용할 수 있게 되었다. 결과적으로 구조 기반 신약개발은 표적 단백질 구조가 있어야만 적용할 수 있는 조건부 방법에서 대부분의 표적에 적용 가능한 일반적인 방법으로 바뀌게 된 것이다.
두 번째는 문제의 유사성이다. 단백질 구조예측은 단백질의 구조를 원자 수준으로 예측하는 문제다. 리간드 도킹은 단백질 대신 단백질-화합물 결합체의 구조를 역시 원자 수준으로 예측하는 문제이다. 대상이 조금 확장되었을 뿐 푸는 문제의 종류는 동일하다.
모든 생체 분자를 모델링할 수 있는 통합 플랫폼의 등장은 통합 모델링 플랫폼을 표방하는 인공지능 방법들이 올해 한꺼번에 등장한 것은 결코 우연이 아니다. 2024년 봄에 차례대로 등장한 RF-AA와 알파폴드-3은 현재 신약개발 관련 수요를 반영한 것으로 보인다.
두 방법 모두 단백질과 기타 분자들(이온, 화합물, 핵산 등) 여러 개로 이뤄진 복합체의 3차 구조를 동시에 모델링해 준다. 신약개발 측면에서도 유용성이 크다. 리간드의 결합이 표적 단백질의 큰 구조 변화를 수반하는 경우와 같은 어려운 도킹도 가능케 해준다.
향후 혁신 신약 발굴을 위한 데이터 과적합 문제 해결
현재 화합물 기반 신약개발 방법이 봉착해 있는 가장 큰 문제를 한 단어로 표현하자면 “과적합”이다. 학습한 문제만 잘 풀고 새로운 예제는 잘 못 푼다는 뜻이다. 신약개발 관점에서 얘기하자면 이른바 혁신 신약 발굴에 적용하기 어렵다는 것이다.
신약개발용 인공지능의 알고리즘이 뒤쳐져서가 아니다. 이제 구조 기반 신약개발 문제는 수많은 컴퓨터 과학자들도 관심을 가지는 분야가 되어서 최신 기술력이 빠르게 흡수되고 있다. 과적합의 가장 큰 이유는 데이터 부족 문제가 온전히 해결되지 않았기 때문이다.
대두되는 과적합 문제, 그리고 해결책은 인공지능 학습을 조금이라도 해본 사람은 알 것이다. 우리가 아차 하는 순간에 인공지능은 과적합 된다. 문제의 본질을 이해하기 보다 노력하지 않고 쉽게 그럴듯한 편법을 찾아내는 방향으로 학습이 진행된다. 문제가 복잡해지고 어려울수록 사람조차 인공지능의 과적합 여부를 구별하기 어렵게 된다. 구조 기반 신약개발을 위한 인공지능이 실제로 지난 몇 년간 그랬다.
결과적으로 인공지능 신약개발은 현재 거대 제약회사의 주 관심사 중 하나이다. 애초에 컴퓨터를 이용한 신약개발은 이상적으로 봤을 땐 매력적인 분야였으나 그 동안 컴퓨터 방법의 예측 정확도 한계로 제약회사의 많은 이목을 끌지는 못했다.
인공지능에 의한 돌파구가 마련되면서, 기술력을 가진 테크 업체와 제휴를 맺거나 자체적인 연구팀을 구성하여 구조 기반의 인공지능 기술력을 선점하려는 움직임이 특히 미국 거대 제약회사(BMS, Pfizer, Novartis 등)에서 두드러지고 있다.
이제 구조 기반 신약개발과 인공지능은 단순 가능성을 타진하는 수준을 넘어서 큰 주목을 끄는 단계에 접어 들었다. 그리고 점점 많은 비전문가들이 이용할 수 있는 단계로 나아가고 있다. 소비자가 현명해야 좋은 물건을 잘 살 수 있듯이, 이제는 인공지능 개발자 뿐만 아닌 약학계에 종사하는 다수의 활용자가 인공지능의 가치와 한계를 잘 이해해야 하는 시대가 오고 있는 것이다.