DNAの調節指示を解読するための説明可能な人工知能

研究者は、高解像度の実験のDNA配列を使用して、BPNETと呼ばれるニューラルネットワークを訓練しました。その後、「ブラックボックス」インナーワークが発見され、シーケンスパターンとゲノムの調節コードの原理を整理しました。クレジット:イラストは、マークミラー、ストーワーズ医学研究所の提供

ゲノムの調節コードのルールを明らかにするためにブラックボックスを開く

スタンフォード大学およびミュンヘン工科大学の同僚と協力して、ストーワーズ医学研究所の研究者は、Advanced Advancedableを開発しました人工知能(ai)エンコードされた規制指示を解読するための技術ツアーでDNA。 2021年2月18日にオンラインで公開されたレポートで自然遺伝学、チームはそれを見つけましたニューラルネットワークタンパク質-DNA相互作用の高解像度マップで訓練されていると、ゲノム全体の微妙なDNA配列パターンを明らかにし、これらの配列が遺伝子を調節するためにどのように組織化されているかをより深く理解することができます。

ニューラルネットワークは、画像、音声信号、テキストなどの多様なタイプのデータから複雑なパターンを学習できる強力なAIモデルであり、関連する特性を予測して印象的な高さで予測します正確さ。ただし、学習した予測パターンをモデルから抽出するのは難しいため、これらのモデルは解釈できないと考えています。このブラックボックスの性質は、予測パターンの解釈が最重要である生物学にニューラルネットワークの幅広い応用を妨げています。

生物学における未解決の大きな問題の1つは、ゲノムの2番目のコード、つまり調節コードです。 DNA塩基(一般に文字A、C、G、およびTで表される)は、タンパク質を構築する方法の指示だけでなく、生物のこれらのタンパク質をいつどこで作るかについてもエンコードします。調節コードは、モチーフと呼ばれる短いDNAのDNAに結合する転写因子と呼ばれるタンパク質によって読み取られます。ただし、モチーフの特定の組み合わせと配置が規制活動をどのように指定するかは、ピン止めが困難な非常に複雑な問題です。

BPNET:次世代ニューラルネットワーク

現在、Stanford UniversityのStowers調査官Julia Zeitlinger、PhD、およびAnshul Kundaje博士が率いる生物学者と計算研究者の学際的なチームは、基本ペアネットワークのNeural Neworkの名前を設計しました。重要なのは、個々のDNA塩基のレベルまで、可能な限り高い解像度で転写因子DNA結合実験と計算モデリングを実行することでした。この解像度の増加により、転写因子結合モチーフやモチーフが調節コードとして一緒に機能する組み合わせルールなどの主要な元素シーケンスパターンを抽出する新しい解釈ツールを開発することができました。

「これは非常に満足のいくものでした」とZeitlinger氏は言います。「結果は既存の実験結果に美しく適合し、私たちを驚かせた新しい洞察も明らかにしました。」

たとえば、ニューラルネットワークモデルにより、研究者はNanogと呼ばれる適切に研究された転写因子の結合を管理する顕著なルールを発見することができました。彼らは、ナノグがスパイラルDNAヘリックスの同じ側に現れるように、そのモチーフの倍数が周期的に存在する場合、DNAに協調的に結合することを発見しました。

Nanogで予期しないパターンを発見します

「このようなモチーフの周期性が規制コードに時々存在することがあるという実験的証拠の長い軌跡がありました」とZeitlinger氏は言います。 「しかし、正確な状況はとらえどころのないものであり、ナノグは容疑者ではありませんでした。ナノグにはそのようなパターンがあり、その相互作用の追加の詳細を見ることは、このパターンを具体的に検索しなかったため驚くべきことでした。」

「これは、このタスクにニューラルネットワークを使用することの重要な利点です」と、この論文の最初の著者である博士Avsecは言います。 AvsecとKundajeは、AVSECがドイツのミュンヘンにある工科大学でジュリアン・ガニュール博士の博士課程でスタンフォードを訪れたときにモデルの最初のバージョンを作成しました。

「より伝統的なバイオインフォマティクスは、既存の知識に基づいた事前に定義された剛性ルールを使用してモデルデータにアプローチします。しかし、生物学は非常に豊富で複雑です」とAVSECは言います。 「ニューラルネットワークを使用することで、以前の知識なしに複雑なパターンをゼロから学習するはるかに柔軟で微妙なモデルをトレーニングでき、それによって新しい発見を可能にします。」

BPNETは、顔認識システムのように学習します

BPNETのネットワークアーキテクチャは、画像の顔の認識に使用されるニューラルネットワークのネットワークアーキテクチャに似ています。たとえば、ニューラルネットワークは最初にピクセルのエッジを検出し、次にエッジが目、鼻、または口のような顔の要素を形成する方法を学び、最終的に顔の要素がどのように顔を形成するかを検出します。 BPNETは、ピクセルから学習する代わりに、生のDNAシーケンスから学習し、シーケンスモチーフを検出することを学び、最終的には要素が基本解像度結合データを予測する高次ルールを学習します。

モデルが非常に正確になるようにトレーニングされると、学習したパターンは解釈ツールで抽出されます。出力信号は入力シーケンスに戻されて、シーケンスモチーフを明らかにします。最後のステップは、モデルをOracleとして使用し、特定のDNA配列設計で体系的に照会し、実験的に仮説をテストするために行うことと同様に、シーケンスモチーフが組み合わせ方法で機能するルールを明らかにすることです。

「美しさは、モデルが実験的にテストできるより多くのシーケンス設計を予測できることです」とZeitlinger氏は言います。 「さらに、実験的摂動の結果を予測することにより、モデルを検証するために最も有益な実験を特定できます。」実際、CRISPR遺伝子編集技術の助けを借りて、研究者はモデルの予測が非常に正確であることを実験的に確認しました。

このアプローチは柔軟性があり、さまざまなデータ型と細胞タイプに適用可能であるため、調節コードの急速に成長している理解と遺伝的変異が遺伝子調節にどのように影響するかにつながることを約束します。 Zeitlinger LabとKundaje Labの両方は、すでにBPNETを使用して、他の細胞タイプの結合モチーフを確実に識別し、モチーフを生物物理学的パラメーターに関連付け、DNAパッケージに関連するものなどのゲノムの他の構造的特徴を学習しています。他の科学者がBPNETを使用して自分のニーズに合わせて適応できるようにするために、研究者はソフトウェアフレームワーク全体をドキュメントとチュートリアルで利用できるようにしました。

参照:「転写因子結合の塩基分解モデルは、ソフトモチーフの構文を明らかにします」、ジガ・アヴセック、メラニー・ワイラート、アヴァンティ・シュリクマル、サブリナ・クルーガー、アムル・アレクサンダリ、キヤティ・ダラル、ロビン・フロップ、チャールズ・マカナニー、ジュリエン・ガガニュ島ゼブティームームイア・ゼブリエ、 2021、自然遺伝学。
2:10.1038/s41588-021-00782-6

この研究へのその他の貢献者には、StowersのMelanie Weilert、Sabrina Krueger、PhD、Khyati Dalal、Robin Fropf、PhD、Charles McAnany博士が含まれます。スタンフォード大学のAvanti Shrikumar博士とAmr Alexandari。

この作業は、Stowers Institute for Medical ResearchおよびNational Human Genome Research Institute(Awards R01HG009674およびU01HG009431からAKおよびR01HG010211からJZへ)および国立医療科学研究所(DP2GM123485)によって部分的にサポートされていました(DP2GM123485)国立衛生研究所(NIH(アメリカ国立衛生研究所)。追加のサポートには、ドイツのブンドミニストリウムfürbildungund forschung(Project Mechml 01IS18053FからZA)、スタンフォードバイオックスフェローシップとハワードヒューズ医療機関の留学生研究フェローシップ(AS)が含まれます。シーケンスは、国立小児健康と人間開発研究所(U54HD090216)のNIH賞(U54HD090216)、ディレクターのオフィス(Instrumentation S10OD021743)、およびGeneral Medical Sciences(Cobre P30GM122731)からのNIH賞によってサポートされているカンザス大学医学研究研究所およびカンザス大学医療センターのゲノミクスコアで行われました。コンテンツは著者の責任のみであり、必ずしもNIHの公式見解を表しているわけではありません。

調査結果の概要を説明します

DNAはタンパク質をコードすることでよく知られています。また、他のコード(規制コード)が含まれています。これは、生物内のタンパク質をいつどこで作るかを指示します。 2021年2月18日にオンラインで公開されたレポートで自然遺伝学、Julia Zeitlinger博士の研究者、Stowers Institute for Medical Researchの調査員であり、スタンフォード大学とミュンヘン工科大学の協力者は、ゲノムの調節コードを解読するために説明可能な人工知能をどのように使用したかを説明しています。

研究者は、調節DNA配列パターンと高解像度のゲノミクスデータからの高レベルの組織化原理を明らかにするために、内部の作業を明らかにすることができるニューラルネットワークを開発しました。 Zeitlinger Labは、このタイプのアプローチを使用して生成された予測モデル、ルール、およびマップが、DNAの調節領域における自然および疾患関連の遺伝的変異をよりよく理解することにつながると予測しています。

ブレークスルーを見逃さないでください: