TOP   >   数物系科学   >   記事詳細

数物系科学

2021.08.25

AIを用いた新薬の開発に役立つ物理学とベイズ統計に基づいた新理論の提案

国立大学法人東海国立大学機構 名古屋大学大学院情報学研究科の高橋 智栄 博士後期課程学生、時田 恵一郎 教授、名古屋大学大学院工学研究科の千見寺 浄慈 助教は、タンパク質を効率的に設計できる新たな理論的手法を提案しました。

タンパク質は、生物の体の中で固有の複雑な立体構造を形成することで機能を発現しています。その立体構造の情報をもとに、アミノ酸配列を予測することで必要な機能を持つタンパク質を設計することを「タンパク質デザイン」と言います。「タンパク質デザイン」は創薬分野への応用が期待されている非常に重要な研究で、実用化に成功すれば安価で迅速な医薬品開発が実現するため、世界的に注目されています。

「タンパク質デザイン」は、本来は配列と構造の両方を同時に最適化せねばならず計算量的に非常に難しい問題であるため、物理学に基づいた理論的な研究は近年ほとんど進展していませんでした。また、最近ではそのような二重の最適化をすることなく現実的なタンパク質のデザインを一定の精度で実行する計算ソフトが開発されていますが、その理論的な裏付けに関する研究もほとんど進んでいません。

本研究では、この二つの方策のギャップを物理学とベイズ統計に基づく機械学習であるベイズ学習注1)の方法によって埋め、「なぜタンパク質はうまくデザインできるのか?」という疑問に答えることで、さらなる応用のための基礎となるような理論を提案することに成功しました。

本研究で得られた成果は、実際のタンパク質デザインで使われている計算ソフトの理論的基礎を明らかにし、より有効な手法の実現への足掛かりとなることが期待されます。また、より現実に近いタンパク質への理論の拡張も容易です。さらに、近年、分子生物学や細胞生物学の分野で注目されている相分離生物学の研究成果を、物理学及び情報学的に裏付ける理論の一つとみなすことも可能です。

本研究成果は、2021年7月8日付アメリカ物理学会が刊行する雑誌『Physical Review E』に掲載されました。
 

【ポイント】

・タンパク質デザインはアミノ酸配列と立体構造の両方の最適化を行う必要があるため膨大な計算量を要する。

・アミノ酸配列に関する新しい仮説を提案し、それをベイズ学習における事前分布注2)に反映させることで、立体構造部分の最適化を省略する新しいデザイン手法を考案した。

・結果的に、現在タンパク質デザインの分野で広く用いられている計算ソフトの手法を統計力学的に再現する理論を作ることができた。

 

 ◆詳細(プレスリリース本文)はこちら

 

【用語説明】

注1) ベイズ学習:

ベイズ統計に基づいたシンプルかつ効率的な機械学習手法。ベイズ統計学は、古典的な頻度論主義の統計学と異なり、統計モデルのパラメータ(母数)までも何らかの確率分布(事前分布)に従うとする。そして、観測されたデータを固定した上で、パラメータのデータによる条件付き確率(事後分布)を求め、事後分布をもとに推定や予測を行う。マルコフ連鎖モンテカルロ法というコンピュータによる効率的なサンプリング手法の発達により、事後分布からの推定や予測は容易になり、ベイズ学習はその実用性を格段に増している。

注2)事前分布:

統計モデルのパラメータが従うとする確率分布のこと。データを観察して比較的客観的に仮定できる統計モデル(尤度関数)に対し、データが観測される以前に利用可能な情報をもとに仮定する必要がある。ドメイン知識からの知見やそれに基づく分析者の直観、あるいは事後分布の計算のしやすさなどから決定する場合が多い。あるいは考えている状況や経験事実から明らかな場合などもある。

 

【論文情報】

雑誌名:Physical Review E

論文タイトル:Lattice protein design using Bayesian learning

著者:Tomoei Takahashi、 George Chikenji、 and Kei Tokita

DOI:10.1103/PhysRevE.1-4.014404

URL:https://journals.aps.org/pre/abstract/10.1103/PhysRevE.104.014404

 

【研究代表者】

大学院情報学研究科 時田 恵一郎 教授 

https://www.phys.cs.i.nagoya-u.ac.jp/~ktlab/