시뮬레이션과 AI를 활용한 새로운 분자·물질 개발

2025.11.09 09:57:06

스미다 마사토, 이화학연구소 혁신지능통합연구센터 분자정보과학팀

분자 시뮬레이션의 역할

 

분자는 물론, 그것을 구성하는 원자를 육안으로 관측하는 것은 불가능하다. 인간은 많은 측정기기의 개발을 통해 양자역학의 법칙이 지배하는 원자 수준 세계의 정보를 획득하려고 노력해 왔다. 인간이 가시광 영역의 빛을 이용해 시각을 획득하고 있다는 것을 생각하면, 빛(전자파)을 이용한 분광 측정기기는 당연한 귀결일지도 모른다.

 

분자 진동은 적외 영역의 에너지 대역을 가지며, 적외선을 통해 분자 진동의 관측이 가능하다. 자외·가시 영역의 빛은 분자의 전자 상태 에너지 대역에 해당하기 때문에 분자의 전자 상태 정보를 얻을 수 있다. X선과 같은 강력한 빛은 분자나 결정 중의 원자 간과 동일한 정도의 파장을 가지며, 이들을 관측하기 위해 이용된다. 또한 화학 실험실에서는 분자 구조를 해명하기 위해 핵자기공명(NMR)이 필수적이다. NMR은 자기장 중의 분자를 구성하는 원자핵이 전자장과 공명을 일으키는 주파수를 관측한다.

 

 

이러한 측정기기를 이용해 얻은 정보는 해독이 필요한 간접적인 것이다. 어떤 조건 하에서도 측정할 수 없고 측정 환경을 갖출 필요가 있다. 양자역학의 원리에서는 대상에 교란을 주지 않고 관측을 얻는 것은 불가능하다. 따라서 제한된 관측 결과로부터 나온 추론에 의존할 수밖에 없는 경우도 많다. 원자 수준의 정보를 컴퓨터 내에 구현해 주는 분자 시뮬레이션은 실험 정보로부터 나온 추론에 설득력을 부여하는 데 기여하고 있다. 이러한 관점에서 시뮬레이션도 하나의 측정기기이다.

 

실험 사실로부터 나온 추론에 설득력을 부여하는 시뮬레이션의 사용법은 선구자들의 끊임없는 노력에 의한 물성값 산출 이론의 개발 덕분이다. 시뮬레이션은 이론에 기반한 방대한 계산의 집합이다. 즉, 시뮬레이션 본래의 역할은 이론의 예측·제안이다. 그러나 예측·제안은 시뮬레이션의 정도가 보장되어야 한다는 전제가 있다. 따라서 분자 시뮬레이션 발전 과정에서 계산 정도에 관한 연구가 우선시되어 오늘날까지 이어지고 있다. 그 연장으로서 실험 사실에 설득력을 부여하는 역할이 시뮬레이션에 맡겨져 있다. 그러나 설명·이해가 가능하다면 재료 설계(예측·제안)에 사용되어도 좋지만, 새로운 분자·물질을 설계하는 도구로 사용되는 경우는 드물다. 화합물의 신규 설계는 연역적인 설계·제안보다 인간의 직관이나 우연에 의존하며, 과학적 근거가 부족하기 때문이라고 생각된다.

 

학습 효율 향상의 도구로서

 

시뮬레이션을 수행하려면 복잡한 수식을 이해하고 컴퓨터가 이해할 수 있도록 코딩을 할 필요가 있다. 경우에 따라서는 프로그램 효율화나 병렬화도 필요하다. 이는 큰 노력이 요구된다. 다행히도 시뮬레이션이 측정기기라는 본질을 이해하고 있는 사람들이 일반 연구자에게 도달할 수 있도록 유료·무료로 배포하고 있다. 덕분에 이론에 깊은 이해가 없는 연구자도 이를 이용할 수 있게 되었다. 이러한 시뮬레이션은 실험 화학·재료 과학자에게 큰 혜택을 주고 있다. 합성 실험 전의 후보 분자·물질 설계에 큰 역할을 할 수 있다. 즉, 비용이 많이 드는 실험 대신에 사용할 수 있다. 이 사용법이야말로 본래 시뮬레이션의 사용법이다. 그러나 이 사용법은 잘 드러나지 않아 블라인드 데이터가 되기 쉽다. 논문에서도 실험 후 해석으로 첨부되는 경우가 많다.

 

 

화학·재료 과학의 일반적 연구실에서 이루어지고 있는 분자·물질 개발의 예를 그림 1에 나타냈다. 실제 연구실에서는 최적화해야 할 대상이 다양하지만, 여기서는 분자·물질의 구조·조성을 목적의 성질에 최적화하는 것을 가정하고 있다. 최적화 대상의 구조나 조성이 아무것도 없는 상태에서 시작하면, 나중에 설명하겠지만 탐색 범위가 너무 광대하다. 따라서 구조나 조성 후보 또는 이미 알려진 분자·물질 후보가 입력으로 필요하다. 이 후보 분자·물질을 원하는 성질에 최적화하기 위한 개량 방침을 결정하는 것이 ①학습·예측이다.

 

이 과제 해결을 위해 필요한 것이 학문적 지식이다. 최적화 방침이 결정되면, 앞에서 설명한 바와 같이 현대의 화학 실험실에서는 ②시뮬레이션을 하는 것이 일반적이다. 얻은 시뮬레이션 결과를 바탕으로 ③평가를 한다. 과거의 문헌과 비교하거나, 자신의 데이터와 비교하는 등 여러 가지 상황에 따라 평가도 달라질 것이다. 평가를 바탕으로 다음 후보를 생각한다. 이렇게 고비용의 ④실험이 포함된 사이클 전에 시뮬레이션에 의한 사이클을 수행하여 합성 실험으로 돌릴 후보 분자를 선정한다.

 

시뮬레이션에 의한 시행착오로 실험 대상을 결정하면 ④실험을 하게 된다. 실험 환경을 완전히 재현하는 시뮬레이션은 거의 불가능하며, 정도의 문제에 직면할 수도 있다. 실험에 의한 사이클도 필요하게 되며, 경우에 따라서는 시뮬레이션으로 대체한 사이클로 돌아갈 필요도 있을 것이다.

 

시뮬레이션의 사용법은 그림 1에 나타낸 것처럼 고비용 실험 대신에 학습 효율을 높이는 역할이다. 그러나 시뮬레이션 자체에는 어떠한 탐색 기능도 없어 인간에 의존하게 된다. 나중에 설명하겠지만 분자의 다양성은 높아 인간이 감당하기 어렵다. 따라서 그림 1에 나타낸 사이클에서는 객관성 있는 사이클을 수행하기 어렵기 때문에 그림 1의 전략으로 연구를 했다고 명확히 말하기 어렵다. 시뮬레이션에 탐색 혹은 최적화 기능을 부여해 ‘최적화되었다’ 등의 문구가 부여되지 않으면 객관성이나 과학적인 근거가 부족해진다.

 

탐색 공간이 명확

 

최근 기계학습의 도입으로 그림 1의 사이클에 객관성을 부여하여 인간 의존에서 벗어날 수 있을 것으로 기대된다. 그 결과로서 재료 개발의 가속․효율화로 이어질 것으로 생각된다. 기계학습에 의한 최적화를 도입해 그림 1의 공정을 충실히 재현한 예로 전고체 Li 이온 전지의 3성분 혼합계 전해질 설계를 소개한다.

 

전고체 Li 이온 전지 발전에는 높은 Li 이온 전도율을 보이는 Li 이온 고체 전해질 개발이 필수다. 높은 Li 이온 전도율을 보이는 고체 전해질 연구는 많이 이루어지고 있는데, 이종의 Li 이온 전해질을 혼합하면 Li 이온 전도율이 개선된다는 보고가 있다. 당연히 혼합비를 최적화할 필요가 있다. 2성분까지는 인력으로 가능하므로 보고된 사례도 많다. 그러나 3성분 이상이 되면 인간의 손으로 최적화하는 것은 매우 어렵다. 따라서 3성분계 고체 Li 이온 전해질의 혼합비를 Li 이온 전도도에 대해 기계학습으로 최적화한다. 물론 그림 1의 최적화에는 입력으로 후보 분자·물질이 필요하다. 입력 물질 선정에는 인간의 통찰이 중요하다. 우리는 혼합할 Li 이온 전도체로 ϓ-Li3PO4, α-Li3BO3, β-Li2SO4를 선택했다. 이 선택에 이용한 자세한 조건은 참고문헌을 참조하기 바란다.

 

기계학습은 내삽 기술에 불과하므로 이용하기 전에 탐색․최적화 범위를 사전에 파악해 둘 필요가 있다. 성분비라면 그 범위는 명확하다. 3성분 상태도 표기에서는 그 내측으로 한정된다. 따라서 기계학습에 의한 최적화가 유효한 계라고 기대할 수 있다. 한편, 지도학습에서 예측 모델을 이용하려면 입력과 출력(라벨과 특징량)의 쌍인 데이터베이스가 필요하다. 그러나 화학이나 재료 과학에서는 이러한 예측 모델을 위한 데이터 획득이 고비용이다. 따라서 데이터를 수시로 획득하고 이를 바탕으로 예측해 가는 기법, 기계학습에서는 능동 학습의 하나로 간주되는 베이지안 최적화(Bayesian Optimization)가 유효하다.

 

우선 시뮬레이션에 의한 사이클을 수행해 보자. ϓ-Li3PO4, α-Li3BO3, β-Li2SO4의 결정 구조에는 각각 4개씩 음이온이 포함되어 있으므로 단위포를 유지하며 혼합하는 것을 생각하면 25% 단위로 각각을 혼합하게 된다. 25% 단위로 만든 혼합계에 대해 밀도 범함수 이론(DFT)에 의한 분자동력학법을 이용해 Li 이온 전도율을 산출하고 실제로 베이지안 최적화를 적용하면 혼합비 Li3PO4:Li3BO3:Li2SO4 = 55:6:19일 때에 최대가 예측되며, 그 Li 이온 전도율은 600K에서 215Scm⁻¹이 되었다. 절대값은 계산 시간의 부족이나 계산 편의를 위해 셀 크기를 작게 했기 때문에 현실과의 괴리는 부정할 수 없다. 그러나 3성분을 혼합하면 Li 이온 전도율이 상승할 가능성을 보여주고 있다. 베이지안 최적화에 의한 최적화 결과로서 과학적 근거도 부여되었다.

 

 

시뮬레이션으로 확실하게 전도율 향상을 예상할 수 있다는 것을 알았으므로 동일하게 실험을 했다. 베이지안 최적화에 의한 Li 이온 전도율을 조성에 대해 최적화한 결과, 2성분 혼합계보다 3배 빠른 Li 이온 전도율(4.9×10⁻⁴S/cm at 573K)을 혼합비 25:14:61일 때에 달성할 수 있었다(그림 2). 이처럼 기계학습에 의한 탐색으로 그림 1에 나타낸 공정에 따른 본래의 재료 개발을 했다고 명확히 말할 수 있다.

 

탐색 공간이 불명확

 

그림 1의 최적화는 순문제를 가정하고 있으며, 입력으로는 원자 수준의 골격이 해명된 물질․분자가 없으면 기능하지 않는다. 따라서 Li 이온 전해질 예에 나타냈듯이 입력의 분자·물질이 중요하다. 그러나 입력은 상당히 인간 편견이 개입하게 된다. 분자라면 10⁸개가 넘는 이미 알려진 분자가 존재하며, 예상되는 분자는 10⁶⁰개(약제로 한정하면)나 있다고 한다. 입력으로 적절한 물질이라는 보장은 없다. 인류에게 있어 미지 분자·물질 쪽이 훨씬 많으며, 이 중에서 과학적 근거가 있는 최적의 물질을 찾는 것은 매우 어렵다.

 

무작정 물질을 그림 1에 의한 최적화를 한 경우, 비용을 예상할 수 없고 운이 나쁘면 원하는 성질을 가진 물질을 전혀 찾지 못할 수도 있다. 따라서 이미 알려진 기능성 물질을 최적화하는 국소해 탐색에 빠지는 것이 인간의 심리이다. 국소해 탐색 중에 우연히 얻은 부산물에서 기능성 분자가 발견되는 경우도 있으므로 그림 1에 의한 국소해 탐색도 쓸데없는 것은 아니다. 그러나 미래를 개척할 물질 탐색을 언제까지나 운에만 맡기고 있을 것이 아니라 정형화하는 것도 또한 필요하다. 시뮬레이션은 미지 공간 탐색에서 중요한 역할을 한다.

 

1. 역분자 설계와 생성 AI

그림 1은 후보 분자․물질의 구조를 원하는 성질에 대해 최적화하는 것을 전제로 한다. 그러나 이것으로는 국소해 탐색에 빠지게 된다. 입력한 물질·분자가 최적인지 보장도 없다. 따라서 역분자 설계의 개념은 오래전부터 제안되어 왔다. 역분자 설계의 개념을 그림 3에 나타냈다. 입력은 원하는 ①분자·물질의 성질이며, 그 성질에 대해 ②분자·물질 탐색, 찾은 분자·물질을 ③합성·응용하는 흐름이 된다. 여기서 큰 과제가 ②분자·물질 탐색이다.

 

 

일반적으로 인간이 무언가를 관측하는 것을 순문제라고 하면, 인간이 무언가를 만들어내는 작업은 역문제에 해당된다. 순문제와 달리 역문제는 인간에게 노력을 요구한다. 최근 생성 AI가 교육·연구 분야에 준 충격은 기억에 신선할 것이다. 생성 AI는 이 역문제를 대신할 가능성을 가진다. 그림 3에 나타낸 역문제인 분자·물질 탐색에서도 이 생성 AI의 활용이 기대된다. 그러나 생성 AI로 이름이 바뀌었어도 결국은 기계학습이다.

 

생성 AI는 라벨과 그 특징량을 사전에 학습시켜 신경망이나 확산 모델 등으로 예측 모델을 구축한다. 특징량을 요구하면, 그 특징량에 최적화된 라벨을 생성해 주는 것이다. 예측 데이터 범위의 최적화 기술에 불과하다. 따라서 생성 AI의 탐색 범위도 학습 데이터 범위인 것에 주의할 필요가 있다. 그림 3의 역분자 설계에서도 분자를 라벨, 그 성질을 특징량으로 학습시킨 생성 AI를 만들 수 있으면 분자·물질 탐색에 생성 AI를 응용할 수 있다. 그러나 앞에서 설명했듯이 유기분자로 한정하고 용도를 약제로 좁혀도 10⁶⁰개나 존재하는 분자 공간에 대해, 이미 알려진 분자의 10⁸개로 예측 모델을 만들었다고 해도 10⁸개 내의 국소해 탐색을 하게 된다. 따라서 그림 3의 분자·물질 탐색에 생성 AI를 이용하는 것은 틀리지 않으나, 학습 데이터가 너무 희소해 한정적인 발전이 될 것은 분명하다. 따라서 생성 AI에도 강화학습형 생성 AI가 필요하다.

 

2. 강화학습형 분자 생성 AI, ChemTS

분자·물질의 데이터는 희소하고 편재되어 있는 경우가 대부분으로, 데이터 사이언스를 적용하기 어렵다. 따라서 Li 이온 전해질의 최적화에서 나타냈듯이 능동 학습을 적용하는 것이 간단하고 빠르다. Li 이온 전해질의 조성비를 최적화할 때에는 탐색 공간이 명확하고, 서로 다른 조성비를 가진 Li 이온 전해질은 서로 독립되어 있다. 따라서 베이지안 최적화가 유효했다. 그림 1에서도 사실상 능동 학습을 하고 있다. 분자의 경우도 각각의 분자는 독립되어 있으므로 베이지안 최적화를 적용하는 것은 가능하다. 그러나 원자를 순서대로 배치해 분자를 구축해 간다고 생각하면, 사전에 배치한 원자종에 따라 다음에 올 원자종은 어느 정도 좁혀지게 된다. 이렇게 생각하면 구축 과정에서 변화하는 분자의 상태를 학습하면서 분자 탐색하는 것도 이치에 맞다. 이러한 학습 방법을 강화학습이라고 부른다.

 

강화학습 알고리즘으로서 대표적인 예로는 AlphaGo에 이용된 Monte-Carlo Tree Search(MCTS)가 있다. 바둑판 위로 공간이 한정된 탐색 문제를 1060(아마 그 이상)의 화학 공간 탐색 문제와 동일시하는 것은 문제가 있다. 그러나 사전학습형 생성 기법을 이용하는 것보다 훨씬 광범위한 탐색이 기대된다. 우리 그룹에서 개발해 활용하고 있는 분자 생성 AI, ChemTS에서도 MCTS를 활용하고 있다.

 

 

그림 4에 ChemTS에 의한 분자 구축 과정을 나타냈다. ChemTS는 MCTS와 Recurrent Neural Network(RNN)을 결합해 SMILES(Simplified Molecular Input Line Entry System) 형식의 분자를 생성한다. SMILES 형식은 분자의 그래프 구조를 유지하면서 분자를 1차원으로 표현할 수 있게 해준다. 따라서 자주 이용되는 문맥 예측 알고리즘으로 분자의 구축 규칙을 학습시켜 두는 것이 가능하다. ChemTS에서 사전에 필요한 학습 데이터는 분자 구축 규칙을 RNN에 학습시키기 위한 SMILES 데이터세트뿐이며, 물성값을 학습시킬 필요는 없다. RNN은 재귀적인 생성이 되므로 학습 데이터 근처만의 분자를 생성하게 된다. 그러나 MCTS에는 스코어값에 의한 탐색 능력이 부여되어 있다. MCTS에서는 노드에 UCB1(upper confidence bound1)에 의한 스코어값을 부여하고 있다.

 

 

여기서 vi는 자식 노드를 방문한 횟수, V는 부모 노드를 방문한 횟수, wi는 노드 i의 보상으로, 물성값을 파라미터로 하는 함수이다. 시뮬레이션으로 산출된 물성값에 의존하며, 목표로 하는 값이나 분포에 따라 변경할 필요가 있다. 여러 물성값을 고려한 보상을 준비하는 것도 가능하다. C는 하이퍼파라미터 중 하나로, 탐색과 개발의 밸런스를 조정한다. C가 커지면 탐색을 우선하고 넓은 탐색이 이루어진다. 한편, C를 작게 하면 개발을 우선하고 국소해 탐색에 가까운 것이 된다. MCTS에서 식(1)의 스코어는 분자 생성에 다양성을 부여하는 기능을 갖게 하는 데 일조하고 있다.

 

ChemTS에서는 물성값을 시뮬레이션으로 생성된 분자마다 산출해 보상값으로서 노드에 반영시킴으로써 원하는 성질에 최적인 분자 구축을 학습해 간다. 따라서 이용하는 시뮬레이션에 따라 생성되는 분자 성질이 달라진다. 그림 4의 시뮬레이션을 그림 1이나 그림 2에서 이용하는 시뮬레이션으로 대체할 수 있으면 실용적인 강화학습형 분자 생성 AI가 탄생한다. 이를 그림 3의 ②분자·물질 탐색에 이용하면 역분자 설계의 개념이 현실감을 띠게 된다.

 

분자 생성 AI의 개념 실증

 

원자·분자 수준의 세계에서는 양자역학이 지배한다. 원자·분자 수준의 현상을 예측하려면 당연히 양자역학이 필요하다. 양자역학을 그대로 화학에 응용하려면 문제가 너무 복잡하므로 여러 가지 근사를 주어 화학에 응용해 탄생한 학문이 양자화학이다. 양자화학에서는 물성값 산출을 위한 여러 가지 이론이나 정도 개선 이론이 발전해 많은 양자화학 계산 패키지를 입수할 수 있다. 화학 실험실에서도 손쉽게 할 수 있는 시뮬레이션 도구로서 그림 1에 나타낸 활용이 이루어지고 있다. 현재 인류가 입수할 수 있는 가장 예측에 우수한 도구라고 생각된다. 그러나 앞에서 설명했듯이 양자화학 자체에는 탐색 능력이 없다. 강화학습형 생성 AI인 ChemTS와 양자화학 계산을 결합함으로써 ‘생각하는’ 양자화학 계산으로 진화한다.

 

일반적으로 양자화학 계산으로 산출되는 양은 분자의 내부 에너지이다. 인간이 이것을 측정하는 것은 불가능하다. 인간이 측정할 수 있는 물리량의 대부분은 상대량이 된다. 따라서 양자화학 계산으로 인간이 관측할 수 있는 물리량을 산출하려면 참조값과 기준값의 산출이 필요해 다단계의 계산이 된다. ChemTS로 생성된 분자의 물리량을 인간이 산출하면 ChemTS의 학습이 진행되지 않는다. 따라서 여러 가지 물리량 산출을 자동화시켜 둘 필요가 있다. 그래서 우리 그룹에서는 Gaussian16, GAMESS 등을 이용한 자동 양자화학 계산 툴 QCforever를 개발했다. 양자화학 계산의 계산 기법은 많이 있지만, 밀도 범함수 이론(DFT)은 정도와 계산 비용의 밸런스가 좋은 기법으로 널리 사용되고 있다. QCforever는 이 DFT 계산을 이용해 다양한 물성값 산출을 효율적으로 하도록 설계되었다. 또한 분자의 올바른 평가를 위해서는 가급적 분자의 내부 에너지가 낮은 분자 배좌에서 산출할 필요가 있는데, QCforever는 이것도 자동화한다. 시뮬레이션을 신뢰하지 않는 사람들을 위해서는 DFT 파라미터를 베이지안 최적화에 의한 순차 학습으로 분자별로 최적화하는 기능을 갖추고 있으며, DFT 계산의 범위 내에서 가능한 한 고정도로 물성값을 산출하는 것도 가능하다.

 

 

분자 시뮬레이션 중에서 양자화학 계산은 계산 비용이 높다. 그러나 장점도 크다. QCforever를 그림 3의 ③시뮬레이션에 통합하면 그림 5에 나타냈듯이 다양한 분자의 전자 상태를 제어할 수 있게 된다. 분자의 양자역학적 성질로서 대표적인 것이 광흡수이다. 분자의 전자 상태는 양자화되어 있으며, 전자 상태 간의 에너지 차이는 가시광 영역에서부터 자외광 영역에 해당한다는 것은 이미 설명했다. DFT는 해밀토니안(Hamiltonian)에 외부 섭동을 가함으로써 선형 응답적으로 다양한 물성값을 계산할 수 있도록 확장되어 있다. 시간 의존 DFT(TD-DFT)는 그러한 계산 기법 중 하나로, 기저 상태에서 여기 상태로 전이하는 에너지를 예측하는 것이 가능하다. QCforever는 TD-DFT에 의한 광물성 산출도 자동화하고 있다. ChemTS+QCforever에 의해 지정한 파장의 빛을 흡수하는 분자를 생성했다. 생성된 분자 중에서 6개의 이미 알려진 분자를 선택해 실험에 의한 검증을 한 결과, 5개가 지정된 빛을 흡수하는 것을 확인했다. 나머지 하나의 분자는 상호이성질화에 의한 골격 변화로 크게 벗어난 결과가 되었다.

 

그림 1에 나타낸 순문제를 가정한 최적화에 묶여 있기 때문에 분자 구조와 분자의 성질로 상관을 파악하는 것이 현재의 화학 실험실에서는 중요하다. 그러나 분자 구조와 그 성질의 활성 상관이 불명확한 경우가 많다. 그 대표적인 것이 발광이다. 발광 유기분자는 보이지 않는 정보를 시각 정보로 변환해 주는 물질로 프로브로서 사용되며 의료 현장에서는 중요한 시약이다. 또한 유기 일렉트로닉스 분야를 대표하는 유기 EL에서도 발광 유기분자는 주역이다. 그러나 발광과 분자 골격은 불명확하며, 원래 발광한다고 알고 있는 유기분자의 유도체 개발에서만 발전해 왔다. ChemTS+QCforever는 이러한 발광 재료의 개발에도 활용할 수 있다.

 

광여기 후의 감쇠기구를 파악할 수 있게 시뮬레이션을 하면서 발광할 가능성이 있는 분자를 설계시켰다. 약 일주일간 3천 분자 정도를 생성하는 데 성공했다. 이 중에서 이미 알려진 분자 7개를 선택해 형광을 계측한 결과 5개의 분자에서 발광을 확인했다. 또한 신규 분자 1개의 합성에 성공해 형광을 측정한 결과, 육안으로 확인할 수 있는 발광을 확인할 수 있었다. 이처럼 구조와 상관이 잡히지 않는 분자의 성질이라도 DFT 계산과 AI로 진공 상태에서 설계가 가능하다는 것을 보여주었다. 그러나 ChemTS가 설계한 분자는 현재의 기술로 합성 불가능한 분자가 많다. 따라서 ChemTS로 생성된 분자 그 자체가 아니라, 얻은 지식으로부터 기능성 물질을 재목적하거나 합성한 예로서 일렉트렛 물질이나 장파장 흡수 분자 설계가 가능하다는 것도 실험적 검증으로 확인되었다.

 

또한 양자화학 계산은 아니지만 단백질과의 도킹 시뮬레이션(docking simulation)을 ChemTS와 결합하면 약제 개발도 가능하다. ChemTS+시뮬레이션에 의한 분자 설계의 예를 그림 5에 정리해 나타냈다.

 

맺음말

 

데이터 구동이 화제가 되고 있는 오늘날, 심층학습을 기반으로 한 생성 AI의 등장으로 인간의 창조성조차 AI가 대체할 가능성을 보여주고 있다. 그러나 생성 AI의 본질은 학습 데이터 범위 내의 최적화 기술이다. 데이터는 과거다. 따라서 과거의 놓친 점 등을 찾거나 재목적화 등의 온고지신형 연구에 도움이 된다. 대발견의 가능성도 크다. 그러나 이미 알려진 물질이 압도적으로 적은 분자 재료에서 활약은 제한적이며, 곧 한계에 도달하는 것은 불 보듯 뻔하다. AlphaFold와 같이 탐색 공간이 명확한 곳에 활용하길 바란다.

 

시뮬레이션 역할은 예측·예언이다. 마침 생성 AI와 상보적인 역할을 하는 것이 가능하다. 그러나 시뮬레이션 단체는 순문제를 가정해 만들어져 있으며, 입력 없이는 어떠한 역할도 못 한다. 따라서 중요한 것이 역문제를 담당해 주는 생성 AI인데, 라벨과 특징량으로 훈련된 생성 AI에 의한 물질 탐색은 미지 공간 탐색에는 부적합하다.

 

이 글에서는 라벨(분자 구조)만을 학습 데이터로 하는 강화학습형 분자 생성 AI, ChemTS를 소개했다. 양자화학 계산 시뮬레이션을 자동화한 QCforever와 ChemTS를 결합해 많은 신규 분자 설계가 가능하는 것을 소개했다. 물성 산출을 위한 QCforever도 아직 불충분하다. ChemTS도 실천적인 재료 개발을 위해서는 다목적 최적화나 적절한 보상 함수의 설계 등 축적해야 할 노하우가 많이 있다. 가급적 많은 사람이 사용해 지식을 얻을 수 있도록 ChemTS와 QCforever는 Github 상에 공개되어 있다(https://github.com/molecule-generator-collection). 앞으로 세대를 넘어 성장을 달성해 현재의 유기합성 연구실에서 역분자 설계가 일상적으로 이루어지는 날이 오기를 기원한다.

 

스미다 마사토, 이화학연구소 혁신지능통합연구센터 분자정보과학팀

츠다 코지, 도쿄대학 대학원 신영역창성과학연구과 메디컬정보생명전공

Copyright ⓒ 첨단 & Hellot.net






검색