banner

ニュース

Dec 25, 2023

個人におけるエッジおよびモジュールの重要性評価

Scientific Reports volume 13、記事番号: 7868 (2023) この記事を引用

266 アクセス

1 オルトメトリック

メトリクスの詳細

個人固有のネットワークは、個人に固有のノードと接続エッジのネットワークとして定義され、精密医療の有望なツールです。 このようなネットワークが生物学的である場合、個人レベルでの機能モジュールの解釈が可能になります。 十分に調査されていない問題は、各個人固有のネットワークの関連性または「重要性」の評価です。 この論文は、重み付けされたおよび重み付けされていない個別固有のネットワークに対する新しいエッジおよびモジュールの重要性評価手順を提案します。 具体的には、モジュール内の 1 つのエッジと他のすべてのエッジの反復モデリングを含む方法を使用して、モジュール型クック距離を提案します。 経験的に導出されたエッジに依存して、すべての個体を使用する場合と、すべての個体を使用して 1 個体を除外する (LOO) 間の変化を評価する 2 つの手順 (LOO-ISN、MultiLOO-ISN) も提案されています。 私たちは、遺伝子共発現と微生物相互作用ネットワークの現実のシナリオをテンプレートにした広範なシミュレーション研究によって、OPTICS、kNN、Spoutlier 法の適応を含む当社の提案を競合他社と比較します。 結果は、個別固有のネットワークに対してモジュール式の重要性評価とエッジごとの重要性評価を実行することの利点を示しています。 さらに、モジュラークックの距離は、考慮されたすべてのシミュレーション設定の中で最高のパフォーマンスを発揮します。 最後に、マイクロバイオーム存在量プロファイルのネットワーク分析によって確認されるように、個人固有のネットワークに関して外れている個人を特定することは、精密医療の目的にとって意味があります。

生物学的特徴と複雑な形質の関係を分析する場合、単一の遺伝子または単一の経路で結果や表現型を特徴付けることは多くの場合不可能であり、より高度な特徴付けが必要です。 複雑な病気には固有の原因はありませんが、さまざまな相互作用する変化の蓄積によって生じます2。 高解像度イメージングモダリティやハイスループットシーケンス法の開発などのバイオテクノロジーの進歩により、増大する個人のコレクションに関する高次元の相互依存データが利用可能になりました。 このようなデータは堅牢かつ安定的に分析する必要があります。 ネットワーク医学では、単変量解析を超えて、生物学的ネットワークの複雑さを受け入れることができます 2,3。

ネットワークは、医療における複数の生物学的プロセスの視覚化と分析に適しています。 ネットワークは、接続されたオブジェクトの集合です。 オブジェクトはノードまたは頂点と呼ばれます。 通常、それらは点として視覚化されます。 ノード間の接続はエッジまたはリンクと呼ばれます。 これらは、点間の線としてグラフィカルに描画されます。 このようなネットワークには、ノード ラベルやエッジの重みなどの追加情報が追加される場合があります。 モジュールは、選択したノードとエッジのサブセットで構成されるサブネットワークです。 ネットワークのモジュール性は、ネットワークをモジュールに分割する強度​​を測定します。 詳細は表 S1 に記載されています。 モジュールなどのグラフ理論的構造は、予測モデルまたは記述モデルにおける従来の臨床変数よりも堅牢で効果的である可能性があります4。 これらはグラフ間で比較されることが多く、各グラフは異なる状態または状態 (病気か健康か) を表す場合があります。 後述するように、ネットワークは個人ごとに個別に構築することもできます。

集団ベースの生物学的モデルは、サンプルを一緒にプールしたり、ターゲットグループ内のすべての個人に適用できる固有のネットワーク配線を固定したりすることによって生物学的ネットワークのエッジを推測し、下流のインフォームド分析のための特徴を抽出したり、ゲノムを使用してエピスタシスの検出と解釈をガイドしたりするために使用されてきました。 -広範な関連研究デザイン6. 個別化医療の観点から、それらは患者固有の結論を導き出すのに役立つことも示されています (例 7)。 しかし、「画一的な」薬はもはや受け入れられず 8,9 、集団由来のネットワークから外挿した結論は特定の個人にとって十分具体的ではない可能性があります。 さらに、統計的相互作用は集団レベルで発生しますが、生物学的相互作用は個人レベルで発生します10。 したがって、生物学的に関連するインタラクトームは個体ごとに異なる可能性があることを考慮して、個体固有のエッジを持つ個体固有のネットワークを構築することに関心が高まっています。

ここでは、個人固有ネットワーク (ISN) を、個人間で異なる可能性のあるエッジ (エッジの重み) を持つ単一の個人を記述するネットワークとして定義します。 結果として、ISN を比較することは、潜在的に異なるネットワーク配線を比較することを意味します。 この定義に適合する ISN の例は、差動ネットワーク 11、12 と完成したネットワーク 13、14、15 です。 差分ネットワークでは、個体固有のエッジの重みは、母集団全体と、個人が追加または削除された母集団の間で母集団ベースのエッジの重みを対比することによって取得されます。 したがって、エッジには、集団に対する個人の影響に関する情報が含まれます。 完成したネットワークでは、各 ISN はスタンドアロンであり、個人が予想されるネットワークとして人口ベースの参照ネットワークを持つディストリビューションから来たものであると想定します。 個人固有のエッジやモジュールなどによる変動を測定する新しい方法を研究すると、既存のデータの分析に異なる視点が提供され、エンドタイプの同定、リスク予測、治療計画が改善されます。

個人固有のネットワークは新しい概念ではありません。 原理的には、長期間にわたって、または複数の条件下で取得された、個人に関する十分な情報が得られれば、その多重性を利用して、その個人に固有のネットワークを構築することができます。 いくつかの例は神経科学にリンクしています16、17、18、19。 細胞間の機能的ネットワークにリンクするものもあります(たとえば、組織切片内のベータ細胞の位置を反映します20)。 ただし、多くの場合、収集されたデータは静的であるか、単一の条件に関連しています。 したがって、ISN の課題の 1 つは、時間や条件に応じて繰り返しの対策を講じない場合の構築です。 この意味での最初のエッジ推論アプローチは 21 と 13 で議論され開発され、それぞれ参照母集団の選択、個人の追加または削除、母集団の増加または減少によるネットワークの再推定に依存しています。 もう 1 つの課題は、派生 ISN から関連情報を抽出する方法です。 一般的な手法は、各 ISN のエッジの重みを平均するなどの情報を集約し、目的の表現型 (たとえば、薬物反応や臨床事象までの時間 22、23) との関連性を探すことです。 ISN を入力として含む研究の最も一般的な目的は予測です (レビューについては、24 を参照)。 これには通常、グラフ理論的特徴を抽出し、それらを目的の表現型に結び付けることが含まれます。 残念ながら、そうすることで、ISN がもたらす可能性を最大限に薄める可能性があります25。 主要な課題は、多くの場合、十分に対処されていません。それは、ISN を構築して解釈することがどの個人にとって不可欠なのかということです。

この研究では、エッジを超えたネットワークの複雑さを考慮しながら、構築された個人固有のネットワークが人口ベースのネットワークと大きく異なるかどうかを評価するという課題に取り組みます。 これを行うには、この課題を外れ値検出問題 (つまり、予想される動作と一致しないデータ内のパターンを見つける問題) として定式化します。 II で定義されている Kuijjer13 の ISN に焦点を当てます。 エッジおよびモジュールの重要性評価戦略を開発および評価する場合は、「方法」セクションのサブセクションを参照してください。 これらのネットワークは、今後、ISN-L (LIONESS の略称、Kuijjer の ISN アプローチの名前) と呼ばれます。 ISNs-L 計算に必要な中間ステップは、1 人の個体を削除することによって参照集団から導出されるネットワークであり、これを LOO ネットワークと呼びます。 ISN-L ネットワークには多くの利点があります。 基本的には、ネットワーク解釈戦略を集団から個人に変換することができます。 また、各個人とその特定のダイナミクスや関連性に焦点を当てることもできます。 最後に、これは、平均的な個人のモデルと見なされる個人の集合から派生したネットワークの概念から逸脱しています。 さらに、完成のために、ISN-L で得られた結果を、別の ISN アプローチである SSN (サンプル固有ネットワーク) での結果と比較します21。

私たちの取り組みは、ISN に関する現在の慣行の限界を克服します。 主な制限は、ISN の有意性評価が通常、相関性の高いサンプル (単一サンプルだけが互いに異なる) を含む大規模サンプル統計に依存していることです。 その結果、ISN-L の統計的有意性を評価し、この方法で極端な個人または例外的な個人を特定することは、依然として十分に研究されていない問題です。 さらに、重要性の評価はせいぜいエッジごとに検証されます。 一般的な例には、14、21、26 で開発された差動ネットワークが含まれます。 シングルエッジの有意性評価には限界が報告されています27。 エッジは完全に孤立して発生するのではなく、ネットワーク全体によって強固に接続され、相互依存するエコシステムの中で発生します。 したがって、分析または翻訳の両方の観点から、ISN を通じて個人の統計的有意性を評価する場合、モジュールはより適切な手段となる可能性があります。 私たちの知る限り、ISN 外れ値検出に関連したモジュールの重要性評価に関する正式なレポートは存在しません。

この研究の主な貢献は次のとおりです。(i) 外れ値検出のための新しい方法、特に修正されたモジュラー クック距離測定およびリーブ ワン アウト方法 (LOO-ISN および MultiLOO-ISN) の開発。 (ii) ISN に対応するための既存の外れ値検出方法 kNN、OPTICS、Spoutlier のカスタマイズ。 (iii) 新しいモジュール式重要性評価パラダイムの導入と ISN との関連性の評価。 (iv) エッジ指向およびモジュール指向の考慮された戦略の長所と短所を評価しながら、合成データによる評価と実世界データによる検証。 この記事では、どの個人が個人固有のネットワーク分析から恩恵を受けるかを決定できるようにする ISN の重要性の尺度を開発することにより、文献ギャップに対処します。

論文は以下のように構成されている。 「結果」セクションを 3 つのサブセクションに分割します。異なる分布仮定を使用した 2 つの広範なシミュレーション研究と、マイクロバイオーム データのアプリケーションです。 ハイパーパラメータは、選択肢のグリッドに従って変更できます。 「ディスカッション」セクションでは、主要な洞察が示され、新しい研究上の質問が提案されます。 「方法」セクションでは、データと方法論について説明します。 詳細については、補足資料として記載されています。 用語集は補足表 S1 に記載されています。

提案された外れ値検出方法のパフォーマンスは、合成データと現実世界のデータの両方で評価および比較されます。 私たちの実際の使用例は、ヒトのマイクロバイオームの研究です。 合成データは 2 つのシナリオを反映しています。1 つは遺伝子発現、もう 1 つは個人集団で利用可能な微生物プロファイルです。 これら 2 つのシナリオは、データを生成するための異なる基礎となる分布を暗示しており、遺伝子発現は正規分布であると想定され、微生物データの場合はデータの組成的性質が考慮されます。 合成データでは、外れ値と非外れ値の個人が 2 つの異なる分布からサンプリングされ、それぞれが異なるパラメーター値、つまり異なる分散/共分散行列を使用して、変数間の関連性を定量化します。 したがって、グランド トゥルース、つまり、個人が外れ値 (1) であるか外れ値 (0) であるかがわかります。 シミュレーションされた分析データセット (次元: \(N \times k\)、N 個の個人と k 個の変数) 上でピアソン相関を計算し、母集団ベースのネットワーク (次元 \(k \times k\)) を作成しました。 人口ベースのネットワーク上で、各個人の ISN を計算しました。 前記ISNは、提案された外れ値検出方法の入力を構成し、個々に固有のエッジ重みが特徴セットとなる。 さまざまなステップを図S1に示します。 したがって、各個人について、そのグランド トゥルースは、各方法で計算されたランク付けされた外れ値スコアと対峙することになります。 特定の個人の外れ値スコア (OS) は、特定の方法がその個人を外れ値として分類する度合いです。 さまざまな方法の有効性の比較は、さまざまな実験条件下で、ハイパーパラメータ値の特定のグリッドを使用して実行されます。 実際のケーススタディとして、長期にわたって収集された乳児のマイクロバイオームを含む LucKi コホート 28 の一部を検討しました。 ネットワーク内で意味のあるモジュールを識別する方法の探索は、この文書の範囲を超える広範な分野です。 提案された方法は、選択されたモジュール検出アルゴリズムに依存しません。 実際のケーススタディでは、SPINGLASS29 アルゴリズムを使用してモジュールを特定しました。

この論文で評価および比較された方法は、(i) 新しい提案、(ii) 既存の方法の適応、および (iii) 科学文献の方法のいずれかのグループに属します。 科学文献の手法のうち、ISN 分野で以前に報告されているのは SSN21 のみです。 Liu21 が一般に SSN と呼ぶ重要性評価手法とネットワーク構築手法を導入したことを考慮して、それぞれ SSN-m と SSN-n と呼ぶことにします。 さらに、理論的根拠に応じて、メソッドは次のファミリーにグループ化されます。 (i) リーブワンアウト、(ii) クック距離、(iii) スパウトリエ、および (iv) kNN と OPTICS。 Leave-one-out (LOO) ファミリは、分析のデータセットから一度に 1 人の個人を削除する影響を利用します。 それには以下が含まれます。 (i) LOO-ISN、(ii) MultiLOO-ISN、および (iii) SSN-m。 Cook の距離ファミリーは、モジュール式の Cook の距離集計のコレクションです。これには、以下と呼ばれる私たちの提案が含まれます。 クックの中央値、クックの最大値、およびクックの平均値。これらは採用された集計関数によって異なります。つまり、それぞれ中央値、最大値、平均値です。 反復手順によりクック距離が計算されます。 このアルゴリズムは、エッジをターゲットとして考慮し、指定されたモジュールに属する他のすべてのエッジを介してその値 (エッジの重み) を予測します。 Spoutlier ファミリーは、Sagiyama の作品に由来しており、最も近い近隣に設定された固定参照を採用しています。 元の実装を Spoutlier-l と呼びます。 Spoutlier 法の適応は OTS と呼ばれ、代替の距離測定、参照セットの計算、およびアンサンブルを中心に展開します。 OTS ユークリッドと OTS コサインは、それぞれユークリッド距離とコサイン相違度を使用し、両方とも Spoutlier-1 よりも修正された参照セットを使用します。 MOTS euc と mOTS cosine は、それぞれ OTS ユークリッドと OTS コサインのアンサンブルです。 最後に、mOTS glob は、OTS ユークリッドと OTS コサインの両方を基本予測子として使用します。

私たちの知る限り、kNN31 および OPTICS32 ファミリーに属するメソッドは、ISN 分野で適用されたことはありません。 メソッドごとに、複数のハイパーパラメータ値を調査しました。 kNN ファミリでは、パラメータ \(k_{min}\) と \(k_{max}\) が 5 に設定され、\(\sqrt{N}\) が設定された kNN 5,\(\sqrt{N}\) です。最高のシミュレーション パフォーマンスが得られるため、kNN と呼ばれます。 すべてのメソッドとパラメータの設定の詳細な説明はメソッドのセクションにあり、すべての頭字語の特徴を含む包括的な表 S2 は補足セクションにあります。 前述の方法は ISN-L に適用されますが、比較の目的で同じ数値実験が SSN-n に対して実行されました。 SSN-n メソッドを適用した結果は、接尾辞 -n で識別されます。

最後に、合成データに基づく数値実験は、計算された外れ値スコア OS をグランド トゥルース GT と比較し、ROC 曲線を構築することによって評価されました。 曲線 AUC の下の面積は、パフォーマンスの尺度として使用されます。

このシミュレーションスキームは、遺伝子共発現ネットワークを模倣することを目的としています。 遺伝子共発現ネットワークの特徴の詳細については、補足表 S1 に記載されています。 次のパラメータのさまざまな値に対して合成データを生成することにより、実験グリッドを形成しました。 サンプル サイズ N、モジュールのサイズ k、外れ値の数 M、および外れ値を生成する確率分布 (詳細は「方法」のセクション「合成データ」を参照)。 実験グリッドの各エントリ (行) は、200 回の実行で構成される設定と呼ばれます。 各実行では、行が個人に関連付けられ、列が変数 (ノード) に関連付けられたデータセットが出力されます。 さらに、各行はバイナリ変数、つまり個人が外れ値であるかどうかを示すグランド トゥルースに関連付けられています。

このデータセットは人口ベースのネットワーク (次元 \(k\times k\)) を計算するために使用され、その基本要素はノード \(v_i\) と \(v_j\) の間の関連付けです。 前記人口ベースのネットワークは、変数間の関連性 (我々の研究では、ピアソン相関) を特徴付け、隣接行列を定義します。 人口ベースのネットワークから、個別のネットワーク (ISNs-L または SSN-n21) が下流の分析入力として計算されます。 モジュール内の個々に固有のエッジ重みのセットは、外れ値検出方法の機能セットを構成します。

実現は、メソッドを設定に適用した結果として定義されます。 実現ごとに、個人固有のネットワークごとに OS が計算され、その個人に対するサポートが外れ値となるように定量化されます。 したがって、これらのスコア値をランク付けして、外れ値である可能性が最も高い個人を見つけることができます。 次に、各メソッドおよび各設定について、極端な値に対するロバスト性により、対応する 200 回の実行結果を AUC 中央値で要約します。 大まかな要約として、すべての設定の平均をとり、各メソッドの平均 AUC 値と中央値 AUC 値を計算します。 これらのスコアを表 1 に示します。

Cook's med は最高の AUC 中央値 (0.920) を達成し、mOTS コサインは最高の平均 AUC 値 (0.866) を達成します。 OPTICS 手法は効果的ではなく、ランダムな推測よりもわずかに優れたパフォーマンス値を達成します。 最後に、kNN も mOTS euc も 0.7 を超える合計 AUC 値を達成しませんが、すべてのリーブワンアウト法 (MultiLOO-ISN、LOO-ISN、SSN-m) は 0.64 より小さい合計 AUC 値を達成します。 方法のセクションで詳しく説明したように、すべての方法がすべての設定に適用されるわけではないため、比較は不完全です。 明確にするために、AUC の観点から各ファミリーの上位のメソッドのみを表 1 に報告します。包括的な表 S3 は補足で入手できます。

このセクションでは、サンプリングされた合成データをサンプル サイズ N = \(\{100,500,1000,2000\}\) でグループ化するときに達成されるパフォーマンスの観点から、さまざまな方法を比較します。 さまざまな Spoutlier の実装をシングルショット (つまり、アンサンブルなしで 1 回適用されるメソッド) で比較すると、OTS コサインは OTS ユークリッドよりもパフォーマンスが非常に優れています。 図1a、bで強調されているように、OTSおよびmOTSコサインは0.75から0.90の範囲のAUC値を達成します。 ユークリッド対応物は 0.65 未満の AUC 値を達成します。 同時に、文献の Spoutlier-l とカスタム OTS ユークリッド アプローチとの間に差異は検出されません。導入された参照セットの計算のパフォーマンスは文献のものより良くも悪くもありません。 提案されたアンサンブル実装は、シングルショット実装よりも優れた結果を達成します。 すべての繰り返しにわたる OTS 予測の中央値を考慮することは非常に効果的です。 mOTS コサインは最適な Spoutlier 法であり、N のすべての値で 0.8 を超える AUC 値を達成します。

合成データ: 正規分布。 さまざまなメソッドの AUC 値。 (a) シングルショットの Spoutlier 法を比較します。 OTS コサインは、正規 OTS ユークリッドよりも均等に優勢です。 (b) アンサンブル手法が比較され、mOTS コサインがサンプル サイズ N のすべての値に対して最良です。 (c) p 値生成手法が比較され、MultiLOO-ISN が対応する手法よりも優れています。 (d) 残りの方法が比較され、クック医学がサンプルサイズ N のすべての値で一貫して優勢です。下のパネルでは、選択された方法が比較されます。 e) 比較にはすべての設定が含まれます。mOTS コサイン法とクック法 (クックの中間値とクックの最大値の両方) が、対応するものより一貫して優位に立っています。 f) 比較はシングルエッジ (\(k=2\)) 設定に制限されます。0.7 を超える AUC 値を達成する方法はありません。

p 値を生成する方法、つまり LOO-ISN、MultiLOO-ISN、および SSN-m は、現在の研究の関連する側面を表し、外れ値を検出するための明確なしきい値を提供します。 これらの方法の比較を図1cに示します。これは、MultiLOO-ISNがサンプルサイズNのすべての値でLOO-ISNよりも優れていることを示しています。特に、文献の方法SSN-mでは、シングルエッジ(\(k=2 \)) の比較は可能であるため、それらのケースのみが示されています。 kNN と OPTICS は AUC\(> 0.7\) を達成することはありません (図 1d)。 さらに、異なるサンプルサイズ値の下でのパフォーマンスを垣間見るために、各ファミリーに最適な方法が一緒に示されています(図1e)。 クック距離と mOTS コサインが際立っており、すべてのサイズ値 N で 0.8 を超える AUC 値を達成しています。これらの方法は、各設定で対応する方法よりも 0.2 を超えて優れています。 シングルエッジ設定では許容可能な性能値、つまり AUC\(> 0.7\) を達成する方法はありません (図 1f)。したがって、モジュール評価の必要性が強調されています。 最後に、AUC とサンプル サイズ N の間にわずかに正の相関があることがわかります。

モジュール設定 (\(k>2\)) では、適応されたクックの距離法、つまりクックの中央値とクックの最大値が最高のパフォーマンス値を達成します。 これらのすぐ後には、mOTS コサイン法が続きます。 合成データをモジュールのサイズ \(k= \{2,3,5,7,9,11,17 \}\) ごとにグループ化すると、モジュールのサイズ k とパフォーマンス AUC の間に正の関係が (m)OTS コサインで現れます。 (図 2a、b)およびクック距離法(図 2d、e)。 他の方法 (図 2c) は、モジュールのサイズ k との関連性を示しません。 重要なのは、シングルエッジ解析設定ではどのメソッドも満足のいくパフォーマンス値を達成できないことです。k = 2 の場合、どのメソッドも 0.6 より小さい AUC 値を達成します。 これらの結果から、エッジだけでは情報が限られていることがわかります。 その他の注目すべき洞察は、Spoutlier の手法の比較から得られます (図 2a、b)。 mOTS ユークリッドの上限は 0.7 ですが、mOTS コサインはモジュール サイズ k が大きい場合に 0.9 を超える AUC 値を達成します。 mOTS glob の AUC はモジュールのサイズ k と正の相関があり、大まかに言うと mOTS コサインより約 0.05 悪いです。 mOTS glob のパフォーマンスは、最適ではありませんが、算術的観点と幾何学的観点の両方を組み合わせる価値を示唆しています。 このシナリオはシングルショット設定のカーボン コピーです。OTS コサインはモジュールのサイズ k と正の相関があり、結果は k の値が大きい場合に対応する OTS ユークリッドよりも 0.2 以上優れています。

合成データ: 正規分布。 y 軸は AUC の中央値、x 軸はモジュールのサイズ k です。 (a) シングルショット Spoutlier の手法を比較します。 \(k>2\) については、OTS コサインが対応するユークリッド (OTS ユークリッド) を均等に支配します。 (b) Spoutlier 族のアンサンブル法を比較すると、\(k>2\) では mOTS コサインが最適です。 (c) p 値生成方法を比較すると、MultiLOO-ISN が \(k\ge 5\) に対して最高のパフォーマンスを達成します。 (d) 残りの方法が比較されます。\(k>2\) の場合、クック医学が他のすべての方法で一貫して優勢です。 下部パネルでは、選択したメソッドが比較されます。 (e) 比較にはすべての設定が含まれます。\(k>2\) の場合、コサインベースの OTS 法とクック距離法が一貫して対応する方法よりも優位に立っています。 \(k=2\) 設定では満足のいくパフォーマンスを達成できるメソッドはありません。

図 S2 は、外れ値の数がモジュールのサイズ k に関する AUC の動作に影響を与えないことを示しています。 外れ値の数 M = \(\{1, 5, 10\}\) を変更すると、メソッドの相対的なランキングは安定しているように見えます。 さらに、パフォーマンス AUC とモジュールのサイズ k の間の傾きは変わりません。 最良の方法によって達成されるパフォーマンス、つまりすべての実行における AUC 中央値は、外れ値の数 M と負の相関関係にあります。外れ値となる個体が増えると、パフォーマンスは低下します。 さらに、外れ値の数 M とモジュールのサイズ k の間には相互作用は現れません。 クックの距離法、つまりクックの最大値とクックの中央値は、外れ値 M の数に関係なく、他の方法よりも優れています。これらの方法は、特にこれらを参照して、すべての設定で安定したパフォーマンス値を達成することにより、外れ値の数 M に対するロバスト性も示します。モジュールのサイズ k が大きい場合。

このシミュレーションスキームは、補足表S1に詳細に説明されている微生物共起ネットワークを模倣することを目的としています。 このセクションでは、微生物シミュレーションスキームの方法によって達成されるパフォーマンスを示し、議論します。 正規分布データのシミュレーションに使用されるグリッドのサブセットは、組成シミュレーション用に明示的に設計されたグリッドと結合されるため、計算負荷が増加します。 詳細には、追加パラメータは、(i) データの異質性、(ii) 外れ値 (ケースとも呼ばれる) と外れ値以外の値 (コントロール) の間で設定された各個人の変数 (ノード) を区別するための乗算係数 (Mult) 乗数、および (iii) です。 ) 全体に対する膨らんだ分類群の比率。 したがって、異なるランダム開始で同じシミュレーション設定の複数のインスタンスが実行される並列実装を開発します。 実験計画全体では、拡張パラメーターのグリッドに含まれる各設定で 150 回の実行が行われます (合計 972 回の設​​定)。

次に、前のセクションと同じ手順に従って、ダウンストリーム分析用の ISNs-L および SSN-n ネットワークを作成します。 実現ごとに、対応する AUC 値が計算され、150 回の実行すべてにわたって平均されて、各方法で達成される AUC 値の中央値が得られます。

私たちは、データの異質性のレベルと倍率を主なパフォーマンスの要因として特定します。 したがって、主なパフォーマンスの要因、つまりデータの異質性と乗算係数によってグループ化されたすべての設定を平均し、各メソッドの平均 AUC 値と中央値 AUC 値を計算します。 表 2 は、さまざまなデータの不均一性と乗算係数設定における、選択したメソッドの AUC の平均値と中央値を示しています。 興味のある読者には、詳細な分析について補足資料を参照していただくようお勧めします。

さまざまな方法で達成されるパフォーマンスは、データの異質性と乗算係数の両方と正の相関があります。 Mult = 2 およびデータの異質性 = 高い場合に、AUC の最良の値が得られます (表 3)。 kNN メソッドと LOO-ISN メソッドは、すべての設定において常に最高のパフォーマンスを発揮するメソッドの 1 つです。 ユークリッドベースの方法である OTS、つまり OTS と mOTS ユークリッドの両方は、Cook の距離法と併用すると競合します。 さらに、Mult = 1.1 の設定では AUC \(>0.51\) を達成する方法はありません。 このシナリオでは、ケースとコントロールの間の差異はわずかです。

高い異質性と高い乗数を備えた設定、つまり症例と対照の個体における分類群間の高度な区別に焦点を当てることにより、検討した方法間の主な違いを強調します。 kNN は、最良の平均 (0.801) および中央値 (0.803) の AUC 値を達成します。 最も優れたものとしては、0.77 を超える AUC の平均値と中央値の両方を達成するものがあり、LOO-ISN、Spoutlier-L、Cook の最大値、OTS ユークリッド、および mOTS euc が見つかりました。 コサイン類似度に基づく手法 OTS では、AUC 値が低くなり、タスクの達成には適していないようです。 さらに、OTS の場合の距離測定を除いて、メソッドのパラメーターのさまざまな選択は、最終的なパフォーマンスにほとんど影響を与えないか、まったく影響を与えないことがわかりました。

ここでは、モジュールのサイズ k = \(\{2,5,11,17\}\) ごとにシミュレーション実行をグループ化したときのパフォーマンスを分析します。 分析されたデータにはかなりの異質性があるため、\(Mult=2\) で異質性レベルが高い設定での反復の集計に焦点が当てられます。 特に、正規性仮定の下でのシミュレーションの結果とは対照的に、LOO-ISN は \(k<5\) について MultiLOO-ISN よりも優れたパフォーマンスを示し、OTS ユークリッドはコサインベースの対応するものよりも優れたパフォーマンスを発揮します。 図 3 では、モジュールのサイズ k とパフォーマンス (AUC 中央値) の間に穏やかな正の相関が観察されており、これらの推定値の内部モジュール性の性質が強調されています。

正規性の仮定の下でシミュレーションで観察したものとは異なり、この評価はシングルエッジ設定について有益です。AUC 中央値は、考慮されたほとんどの方法で約 0.75 です。 その他の注目すべき結果は、Spoutlier メソッドの比較から得られます。 実際、ユークリッドベースの手法はコサインベースの手法よりも大幅に優れています (図 3a)。 シングルショットと比較して、アンサンブルベースの方法を採用することによる AUC の利点は、平均で 0.05 未満とわずかしかありません (図 3b)。 MultiLOO-ISN、LOO-ISN、および SSN-m は、シングルエッジ設定では同様のパフォーマンスを示します (図 3c)。 クックの距離アプローチは、モジュール サイズ k が大きい場合に最も優れたパフォーマンスを発揮します。 モジュールサイズが小さい場合には最適ではありません (図 3d、e)。

合成データ: 合成データ。 y 軸は AUC の中央値、x 軸はモジュールのサイズ k です。 (a) シングルショットの Spoutlier 法を比較します。 OTS ユークリッドと Spoutlier-I の両方のユークリッド法が OTS コサインを支配します。 (b) Spoutlier のアンサンブル手法が比較され、\(k>2\) の場合、mOTS euc が最適な Spoutlier 実装として一様に浮上します。 (c) p 値生成方法が比較され、MultiLOO-ISN はモジュラー設定、つまり \(k>5\) の開始時に最高のパフォーマンスを達成します。 (d) では、残りの方法が比較され、kNN と Cook の最大値が対応する方法よりも一貫して優勢です。 下部のパネルでは、選択したメソッドがまとめて比較されます。 (e) では、比較にはすべての設定が含まれます。KNN、mOTS euc、LOO-ISN、Cook's max、および Cook's med は一貫して良好なパフォーマンスを達成します。

図 S3 に示すように、モジュールのサイズ k に関する AUC の動作は、外れ値 M の数の影響を受けません。メソッドの相対的なランキングは、範囲 M = \ で、外れ値 M の数に関して一貫しているように見えます。 (\{1,5,10 \}\)。 外れ値 M の数が増加すると、すべてのメソッドのパフォーマンスが悪化します。外れ値に対して高いロバスト性を示すメソッドはありません。 最後に、外れ値 M の数が増加すると、パフォーマンスの不均一性、つまり最良の方法と最悪の方法の間の広がりがわずかに増加します。

マイクロバイオーム共起ネットワークは、個人の健康状態に関する情報が豊富であることが知られています4,33。 したがって、我々は、乳児期から幼児期を通して腸内細菌叢の発達を監視する進行中の研究であるLucKi Gutコホートからのデータを使用して、所見を検証します。

LucKi Gut は、より大規模な Lucky Birth Cohort Study28 の中に組み込まれています。 これは主に新生児に焦点を当てており、出産後のさまざまな段階で微生物分類群を収集し、微生物の関連性を計算します。 6 か月目のマイクロバイオームは、微生物群集の成熟におけるマイルストーンであると特定されています。 したがって、それは分析の主題を構成します。 私たちは、生後 6 か月の時点で微生物プロファイルが得られている 81 人の新生児に焦点を当て、有意性評価手法を通じて、外れている個人固有のモジュールがあればそれを発見しようとします。 微生物分類群の普及率 (\(< 10\%\)) に基づいてフィルタリングを適用します。 すべてのサンプルはかなりのシーケンス深度を持っています (読み取り値: 中央値 = 57,248、IQR = 29,504、最小値 = 11,123)。 したがって、読み取り数にはフィルターを適用しません。 結果として得られるデータは、126 個の微生物あたり 81 人の新生児で構成されています。 データを中心対数比 (CLR) 変換し、データセット全体、つまり人口ベースのネットワークに対してピアソン相関ネットワークを計算しました。

考慮されるモジュールは、コミュニティ検出アルゴリズム SPINGLASS29 を人口ベースのネットワークに適用することによって得られるクラスターです。 二値化や分布ベースの変換は一切適用しません。 アルゴリズムの粒度を高めるためにパラメーター停止温度を 0.001 に設定し、他のパラメーターはデフォルト値に設定します。

SPINGLASS29 を Lucky Gut コホートに適用すると、次元 {45, 41, 35, 5} 分類群の 4 つの微生物モジュールが見つかりました。 モジュール 1 ~ 3 のサイズ (分類群の数) はシミュレーションの範囲外です (\(>17\))。 さらに、モジュール 1 ~ 3 は、27 に従って計算されるように、個人 81 よりも多くのエッジで構成されているため、クック距離に基づくすべての方法を使用することはできません。 5 つのノードで構成されるモジュール 4 は、シミュレーションにおけるモジュールの寸法に最も近いため、アプローチを検証するのに十分です。

したがって、モジュール 4 の ISN-L の合成データから優れた技術を適用します。特に、kNN 5 \(\sqrt{N}\)、mOTS euc、MultiLOO-ISN、LOO-ISN、Cook の最大 mOTS コサイン、およびmOTS コサイン -n。 MultiLOO-ISN と LOO-ISN は、それぞれ 7 個と 4 個の有意な外れ値を検出します。これを図 4a、b に視覚化します。 ランク比較を通じて個人のアンサンブルランキングを作成します。 Li らによる比較研究 34 は、パフォーマンスと一般化可能性の点で最良の指標の 1 つとして、ランキングの幾何平均を導き出します。 異なる方法の外れ値スコア間には強い一致があり、絶対値の相関は 0.4 を超えています (図 4d)。 幾何平均に関しては、上位 6 つに焦点を当てます (図 4c)。 MultiLOO-ISN と LOO-ISN で見つかった外れ値が 7 と 4 の間であるため、6 を選択します。

実際のデータ: LucKi Gut コホート。 Fiedler 値をメトリックとして使用した ISN のフィルタリング曲線。 標準偏差も表示されます。 モジュール 4 では、(a) LOO-ISN で識別された 4 つの外れ値 (緑) の濾過曲線が、残り (赤、「平均」として識別) に対して示されています。 (b) の緑色の線は、MultiLOO-ISN で特定された 7 つの外れ値の濾過曲線です。 (c) では、ランキングの幾何平均に関して、上位 6 つの外れ値 (緑) が残り (赤) に対して示されています。 (d) では、OS の相関に関する一致が、指定された方法間で計算されます。 (e) では、ネットワーク全体の上位 6 つの外れ値 (緑) が残り (赤) に対して示されています。 (f) ネットワーク全体の上位 6 サンプルのうち 2 サンプルのみがモジュール 4 でも外れています。

さらなる検証は、グラフ フィルタリング曲線 35、つまり、グラフの関連属性と構造情報を使用してラベル付きおよびラベルなしのデータセットに適用できるグラフ表現から得られます。 増加するしきい値が考慮され、現在のしきい値よりも重みが小さいエッジはゼロに設定されます。 次に、サブグラフを要約するメトリックが、さまざまなしきい値に対して計算されます。 より詳細には、グラフの代数的接続性、いわゆるフィードラー値 36 を使用します。 グラフがどの程度うまく接続されているかを測定します37。 詳細については、補足を参照してください。

図 4a ~ c​​ では、母集団内の他のすべての ISN-L の平均に対する外れ値グループを示しており、特定のモジュール内で強い分離が示されています。 したがって、LOO-ISN、MultiLOO-ISN、および上位 6 つの異常値の結果が裏付けられます。

上位 6 つの外れ値を、分娩方法 (経膣または帝王切開) や食事の種類 (母乳育児、混合食、固形食) などの外部表現型と比較します。 固形食の場合は強化され、帝王切開分娩では軽度の強化が見られます(超幾何検定、それぞれ p 値 0.032 と 0.079、FDR 補正あり)。

次に、極端として、ネットワーク全体をモジュールとして考えます (図 4e)。 ネットワーク全体 (つまり、81 人の個人と 126 の分類群の ISN) でパイプラインを反復し、(以前と同様に) 上位 6 つの外れ値をランク付けします。 エッジの数がサンプルよりも多いため、クックの最大値は計算されていないことに注意してください。 上位 6 位では固形食品が大幅に濃縮されていることがわかります (6 つ中 6 つ、超幾何 FDR 補正 p 値 0.032)。 配信タイプのレベルは強化されません。 さらに、上位 6 サンプルのうち 5 つは、同じデータに関する Galllazzo et al.38 の DMM クラスター分析のクラスター 2 に含まれています。 ただし、濃縮は見られません (FDR 補正された超幾何 p 値 \(= 0.35\))。 ネットワーク全体でモジュール 4 の上位 6 つの外れ値を取得したところ、濾過曲線に分離は見つかりませんでした。 モジュール 4 の上位 6 つの外れ値のうち、ネットワーク全体でも外れているのは 2 つだけです (図 4f)。

個人固有のネットワークの人気が高まっています。 一般に、ISN は 1 人の個人に割り当てることができるネットワークを指します。 したがって、個人を相互に比較し、患者または集団グループの異質性を評価するためにシステムアプローチを採用することができ、これは精密医療の実践に役立つ可能性があります。 ここでは、個々に固有の重みを持つエッジを持つ ISN に焦点を当てます。 多くの場合、このような ISN は、エッジの計算に直接使用されるため、個々に固有のノード値も持ちます。 ただし、ノード値を直接利用できない例も考えられます。 例えば、個人固有の遺伝子レベルの統計的エピスタシス ネットワークは、Kuijjer et al.13 の意味で、集団エピスタシス モデルに対する個人のエピスタシスの寄与を捉えることができます。 ただし、個体固有の遺伝子ノード値は、集団エピスタシス モデルの導出に遺伝子概要の計算が含まれる場合にのみ利用できます。 ISN が派生すると、高度に接続されたサブネットワークについて問い合わせることができます。 ISN が分子である場合、濃縮分析によって追跡調査して、個々に特異的な重要な経路を特定できます。 ただし、そのような分析に着手する前に、まずその個人を固有のサンプルとして扱うべきかどうか、またはその個人が集団傾向に従うと想定できるかどうかを調査します。 したがって、人口モデルからの結論は、苦労することなく個人に推定できます。 現在、ISN は、エッジやモジュールが母集団から予想されるものと大きく異なるかどうかに関係なく、解釈ワークフローの対象となることがよくあります。 したがって、この研究では、シングルエッジの重要性評価を超えて、いくつかの外れ値検出方法を検討し、新しい方法を定式化し、それらを ISN のコンテキストに変換します。

個々に固有のエッジを持つ ISN は、さまざまな方法で計算できます。 Kuijjer の線形補間法はエッジのあらゆる定義に適用できるため、注目を限定しました。 これは、エッジの重み定義によって最適なパフォーマンスが得られることを意味するものではありません。 Kuijjer は、相互情報量エッジの重みを使用するとノイズの多い結果が得られると報告しました 13 (そして Jahagirdan39 も同様)。 さらに、各アプリケーションの設定では、対象アプリケーション データの本質を捉えたシミュレーション データ上で、採用された ISN 定義の適切性を徹底的に評価する必要があります。 2 つのノード間の関連性の尺度としてピアソンの相関関係に適用すると、Kuijjer の個人固有のエッジは、Liu らによって定義されたエッジと非常によく似ています 21 (SSN-n)。 後者は、有意性を評価するために ISN エッジから Z スコア (SSN-m) を作成しました。 ただし、SSN-n のタイプ I 誤差はわずかに増加しました。 この観察の背後にある推論については、Jahagirdan et al.27 を参照します。

この論文では、相互作用する生物学的実体のネットワーク (遺伝子とその発現、微生物とその存在量など) を介して集団が記述される集団とどの個人が大きく異なるかを評価するための、さまざまな研究分野からのいくつかの方法を紹介します。 エンティティは単独では機能しないことが多いため、私たちは現在の最先端のサンプル外れ値検出方法を拡張し、各個人の相互接続された測定値のセットを条件として機能するようにしました。 したがって、シミュレーションでは、モジュールを探すのではなく、特定のサブネットワークを条件として、サブネットワークの条件で個人が外れ値であるかどうかを確認します。 私たちの技術で特定された、ネットワーク全体ではなくサブセット上の外れの個人は、追跡分析のためにズームインする対象となる ISN の興味深いサブネットワークを指し示す可能性があります。 遺伝子、分類群、またはその他の生物学的特徴であるノードは、孤立して機能するのではなく (コミュニティ内で) 機能することを認識し、私たちは現在の最先端の分析をモジュール重要性パラダイムに向けて拡張しました。

私たちの作業では、考慮された各外れ値検出方法でテストする帰無仮説と対立仮説を明確に指定しました。 私たちのシミュレートされたデータは、(1) 正規分布のトランスクリプトーム (遺伝子共発現) ネットワークと (2) 組成分布の微生物共起ネットワークの 2 つの現実のシナリオを模倣しています。 これら 2 つのアプリケーション コンテキストを選択した動機は次のとおりです。 遺伝子の共発現は、ISN が主に適用されている分野です。 さらに、Conesa ら 40 が強調しているように、読み取り数は離散分布 (ポアソンまたは負の二項分布 41,42) で最もよくモデル化されます。 ただし、TMM やバッチ削除を含めてデータが正規化されるとすぐに、データは離散的な性質を失い、より連続的な分布に近づく可能性があります。 さらに、ガウス分布には、大きなサンプル サイズの平均を自然に表現したり、平均と偏差を完全に独立させたりできるなど、数多くの利点があります。 正規性の仮定が問題となる可能性があるため、その使用はその仮定が成り立つシナリオにのみ限定されます。 これらの特定のフィールドでは、カスタム データ生成手法が必要です。 マイクロバイオームは健康に大きな影響を与えます43。 さらに、人間の腸は、微生物同士が相互作用したり、宿主と相互作用したりする複雑な生態系です33。 微生物の相互作用は、さまざまな健康状態に関する豊富な情報を潜在的に示すことが示されています 33。

データ サイエンスと精密医療の時代においては、堅牢な外れ値検出が大きな関心を集めています 44,45。 利用可能なデータまたは参照を考慮して、観察がありそうもないかどうかの判断は、明らかにコンテキストに依存します。 ネットワークである ISN のコンテキストでは、多変量の方法で外れ値を探す方が合理的です。多変量の外れ値は、古典的に、特定の相関構造と矛盾する観測値として定義されています。 多変量外れ値検出の複雑さは、数千のエッジで構成される可能性がある ISN のコンテキストではさらに悪化します。 複雑さを軽減するため、またモジュールが解釈や翻訳の基本単位となることが多いため、多変量外れ値検出の次元をモジュールによって規定される次元に制限します。 したがって、実際のモジュールの次元を再現するために、低次元シミュレーションに焦点を当てます。 私たちが選択した外れ値検出手法は、kNN、OPTICS、Spoutlier、Cook's distance、および SSN-m ファミリの代表的なものであり、教師なしです。kNN と Spoutlier は異なる仮定を持っていますが、どちらも距離ベースの手法であるのに対し、OPTICS は密度ベースです。 SSN-m (LOO-ISN および MultiLOO-ISN として) はリーブ ワン アウトに基づいていますが、Cook の距離は統計および距離の両方に基づいています。 単変量 (多変量) 外れ値検出のために最初に開発された手法は、それぞれ SSN-m (kNN、OPTICS、Spoutlier、Cook の距離) です。 シナリオ全体で総合的なパフォーマンスが最も優れているというものはありませんが、モジュールの次元が増加するとパフォーマンスが向上するということがいくつか観察できます。 さらに、サンプルサイズを増やすことにより、パフォーマンスがわずかに向上することが観察されました。 組成データ上の、外れ値と非外れ値の間の分布距離は、パフォーマンスを決定する重要な要素です。 特にパラメータ Mult と Data の異質性。 Mult=1.1 の設定は、AUC 中央値の値が 0.5 ~ 0.51 の範囲にあり、すべてのメソッドにとって非常に困難です。 このシナリオでは、症例と対照間の不一致はわずかであり、どの方法でも検出されません。 したがって、近視眼的な方法で外れ値検出方法を適用する前に、ターゲット データセットの特性をさらに分析することが重要です。

メソッドのパフォーマンスに基づいて解釈と洞察を定式化できます。 提案された方法、つまりエッジに適用されるクック距離法、クックの最大値およびクックの中央値が最初の選択肢であることを示します。 Cook の方法は、合成データ正規性仮定設定の下で mOTS コサインを使用し、合成データ構成設定の下で kNN および LOO-ISN を使用する場合に最も優れています。 それどころか、OPTICS は一貫して業績が低迷しています。 このような結果について考えられる説明は、クックの構造がネットワーク医療を特徴づける生態系の観点に適切な重要性を与えることができるということである。 実際、エッジの影響/極端さを計算するとき、モジュール構造全体が考慮されます。 さらに、幾何学的観点からトランスクリプトミクス データのエッジに取り組むことができると推測できます。 これは、対応するユークリッドよりも mOTS コサインのパフォーマンスが優れていることから明らかです。 代数的アプローチである mOTS ユークリッドは、マイクロバイオーム シミュレーションでより良い結果をもたらします。

提案された外れ値検出方法の代替方法が存在します。 (非線形) PCA、(カーネル) MDS、または SNE などの (非線形) 次元削減手法を、各 ISN にリンクされた上対角関連行列のセル エントリに対して使用して、外れ値を特定することもできます。主に目視検査のみで検査します。 一部のクラスタリング アプローチは、外れ値を別個のクラスターとして識別するという意味で、外れ値に対して堅牢です。ISN のコンテキストで有望な最近の開発の 1 つは、ツリーベースの重要性評価を備えた新しい階層ネットワーク クラスタリング アプローチである netANOVA です。

実際のデータが私たちの調査結果を裏付けています。 LucKi Gut コホート微生物叢データに関する研究では、局所的な外れ値、つまり、全体的な外れ値ではないが、特定の特徴コミュニティに属する場合にのみ外れ値となる観測値を見つける際に、提案された外れ値検出方法が検証されました。 マイクロバイオームの実質的な不均一な構造とその多様性の重要性を考慮すると、これはマイクロバイオームにとって非常に重要です47。 さらに、最小のモジュール (つまり、モジュール 4) で最もパフォーマンスの高いテクニックのアンサンブルを実行することにより、食事の種類と提供方法を​​分離できます。 特に、帝王切開の分娩方法は、人生の初期段階で微生物叢を促進する主な要因であることが知られています48、49、50、51。 これは、前述の方法の信号を捕捉する能力を強調しています。 さらに、モジュール 4 の上位 6 つの最も外れ値の個人は、ネットワーク全体で外れているわけではありません(図 4e)。 したがって、局所的な外れ値の検出は補完的な情報をもたらします。

提示されたメソッドのほとんどはランカーです。つまり、外れ値のランキングを生成しますが、リーブワンアウトメソッド (\(LOO-ISN\) および \(MultiLOO-ISN\)) は適切な分類子です。つまり、p を提供します。 -価値。 p 値を使用すると例外的なサンプルを特定することが容易になりますが、最も優れたパフォーマンスを発揮するものの一部、つまり kNN、クック距離、Spoutlier はそのような p 値を提供しませんでした。 ランカーにとって、ランク付けされたリストを変換して、どの個人が実際に外れ値であるかを決定するには、さらに多くの作業が必要です。 計算負荷は方法によって異なります。 MultiLOO-ISN と LOO-ISN は、最も大量の計算を必要とするシングルショット技術です。 OTS ユークリッド アプローチは、OPTICS の対応するアプローチよりもはるかに遅いため、さらなる最適化の必要性が浮き彫りになっています。 Cook の距離メソッドは高速ですが、モジュール サイズが大きくなると負荷が急速に増加します。 サイズ \(k=5\) のモジュールと \(N = 1000\) サンプルの完全な比較は補足に示されています。

参照データの選択は、ISN を紹介する元の論文での議論のポイントでした。 たとえば、Kuijjer 13 では、初期の参照セットのサブセットをバックグラウンドとして取得することを調査し、特にサンプルサイズが増加した場合、これがこのバックグラウンドから構築された個人の特定のネットワークにほとんど影響を及ぼさないことを示しました (Kuijjer et al.,13)。 同様に、Liu ら 21 も参照セットの変更の影響を評価し、この方法はより小さな参照セットに対して堅牢であると結論付けています。 Jaha et al.27 では、さまざまな参照セットの選択を評価しました。 特に、ケースのみ、コントロールのみ、またはプールされた参照セットを実行する場合の影響です。 彼らは、予測にコントロールのみの参照セットを使用することは利点があるが、一般化する能力が低下すると結論付けました。 ただし、この作業では、参照データの選択は簡単でした。 教師なし設定では、ケースのみまたはコントロールのみの参照セットを使用することはできません。 参照セットの変動によって問題が発生する可能性があります。 参照セットのサンプルが異なる母集団の混合である場合、結果は影響を受ける可能性があります。 参照データの選択が外れ値ステータスまたは重要な ISN の下流分析に与える影響は、今後の研究課題です。 フォローアッププロジェクトは、同じ関連パターンを共有するサンプルのグループとして均質な参照セットを見つけることを目的としています。

最後に、興味深い個人を選び出すと、それらを精密医療の文脈で分析して、バイオマーカーを特定したり、メカニズムに関する洞察を提供したりできます。 Jahagirdan39 と同様に、エッジ値 (未公開) を使用する場合、クラス精度がすでに非常に高いことが観察されます。 平均的なエ​​ッジ表現 (ピアソン相関) から最も遠くに行くことが有益であると推測します。 この研究では、エッジ値を予測子として単純に使用するだけでなく、より洗練された方法を適用します。 グラフ表現の学習など、より高度な方法を使用することもできます。

結論として、ISN は有望な構成要素です。 精密医療の分野での彼らの取り込みは、ISN を解釈するための進歩だけでなく、外れているまたは例外的な個人を特定するための評価にも依存します。 このような個人は、一般的な集団モデルではなく、ISN に基づいた診断や介入から恩恵を受ける可能性があります。 この研究は、一般的に使用されているシングルエッジ手法に比べて、モジュールベースの外れ値検出手法の付加価値を示しています。

提案された方法を検証するために、乳児期から幼児期を通して腸内微生物叢の発達を監視する進行中の研究であるLucKi Gutコホートからのデータを使用しました。 LucKi Gut は、より大規模な Lucki Birth Cohort Study28 に組み込まれています。 メタゲノム DNA は、機械的および酵素的溶解を伴うカスタム プロトコールで抽出されました 52。 サンプルの主な分析ステップは、16S rRNA V3-V4 超可変遺伝子領域の次世代シーケンスによる微生物プロファイリングでした。 次に、DADA2 ベースのパイプラインを使用してアンプリコン配列バリアントを特定しました。 これらのステップの結果、1,144 種類の豊富な分類群のコレクションが得られます。 私たちは主に、微生物群集の成熟のマイルストーンとして特定された出産後6か月目に採取された新生児の微生物関連に焦点を当て、微生物プロファイリングが利用可能な81人の新生児に注目をさらに限定しました。

情報量の多い個体と分類群を選択し、ランダム ノイズをフィルタリングして除去することは、存在量フィルターと蔓延フィルターを使用して実現されました。 蔓延率が 10% を超えるアンプリコン配列変異体のみがフィルタリングを生き残りました。 フィルタリングはマイクロバイオームの重要なステップとして認識されており 53、我々は 53 に従って 10% を選択しました。 残りの分類群は 126 (1144 個中) だけでした。 プレフィルター処理されたデータに対して、中心対数比 (CLR) 変換を適用しました。

一般に、ネットワークはグラフ \(G=(V,E)\) で表すことができます。ここで、V は p 個のノードの有限で空でない集合を表し、E は以下を含む \(V\times V\) の部分集合です。接続されたノードのペア \(e_{ij}:=(v_i,v_j)\) はエッジと呼ばれます。 重み付きネットワークでは、各エッジ \(e_{ij}\) が重み \(w_{ij} \in R\) に関連付けられます。 補足表 S1 も参照してください。 個人固有のネットワークの場合、各個人 q \((q=1,\ldots , N)\) に対して一意のネットワーク \(G_q=(V_q,E_q)\) が存在すると仮定します。ここで N は個人の数です研究コホート内で。 さらに、サブネットワーク/モジュール \(G^\prime =\left( V^\prime ,E^\prime \right)\) は、 \(V^\prime \subseteq V\) および \(E ^\prime \subseteq E\)。

この研究で考慮された個人固有のネットワークは、Kuijjer の LIONESS を介して導出されました 13 (図 S4 も参照)。これにより、研究対象の各個人に対して無向で重み付けされた個人固有のネットワークが生成され、さまざまな状況で強力な特性、パフォーマンス、適応性を備えています 13 、27、54、55。 したがって、私たちの研究では、個々の q に対する個々のエッジの重み \(w_{ij}^q\) が次の式で計算されます。

ここで、 \(w_{ij}^\alpha\) は人口ベースのネットワークのエッジの重みであり、 \(w_{ij}^{\alpha -q}\) は同じ測定値で計算されたネットワークのエッジの重みです関連性 (この研究ではピアソン相関) を使用しますが、q 番目の観測値、つまり LOO ネットワークは使用しません。

この式は、個人 q の有無だけが変化する 2 つのネットワーク間の違いを利用して、個人の削除または追加がネットワーク トポロジに及ぼす影響に関する結論を導き出します。 さらに、この式のインスピレーションは、すべての研究対象者をプールして構築されたネットワークにその平均が近づくように ISN を構築したいという願望にあります。 元の論文は、 \({N\rightarrow \infty }\) を使用し、人口ベースのネットワークと LOO ネットワークの間で重みの比率が一定であるという仮定の下で、線形性が保たれ、人口ベースのネットワークが次のように見えることを効果的に示しています。 ISN の加重平均として (13、付録 5.2 を参照)。

SSN-n ネットワークは、コアの差分 \(w_{ij}^\alpha -w_{ij}^{\alpha -q}\) によって定義されます。 元の論文 21 は対照サンプルに基づいて設定された基準に基づいていましたが、27 では母集団全体にさらに拡張されました。 教師なしの設定にあるため、後者の定義を使用しました。

SSN-m、LOO-ISN、および MultiLOO-ISN は p 値を生成しますが、OPTICS、kNN、Spoutlier はランカー、つまり外れ値スコアを生成します。 方法の特徴を表 4 に示します。

外れ値、つまり母集団ベースの関連構造から逸脱する個人を見つけるには、基礎となる帰無仮説を明確にすることが不可欠です。 具体的には、特定のエッジ \(e_{ij}\) については次のようになります。

この定式化は、\(w_{ij}^q\) と \(w_{ij}^{\alpha }\) の間の直接的な関係を示しています。 \(H_0\) が拒否されない場合、母集団に基づく結論は q 番目の個人に直接適用されます。 テストが両側拒否ゾーンに該当する場合、その個人はターゲット エッジ/モジュールの外れ値であるとみなされます。 上記の公式式は次のようになります。 (2) は、モジュール内のすべてのエッジに対する等式を拡張することで、モジュールに直接一般化できます。 Md をモジュールとして取り、\(Me = \{w_{ij} :i,j \in Md\}\) をモジュールに属するエッジの重みのセットとして定義します。 したがって、帰無仮説は次のようになります。

式からの大きな逸脱。 (2) (モジュラー評価の式 3) は \(H_A\) の一部です。 方法に応じて、\(H_0\) の定式化は異なります。 (1) SSN-m の場合、\(H_0\) は、参照ネットワークとサンプル q を追加したネットワーク上で計算されたエッジの等しいことを指します。 SSN-m に関するサブセクションでは、このテストと式 2 の等価性を示します。 (2)。 (2) LOO-ISN および MultiLOO-ISN の場合、帰無仮説は式 2 になります。 (2) (モジュールの重要性をテストする場合は式 (3))。 詳細については、LOO-ISN および MultiLOO-ISN のサブセクションを参照してください。 他の方法 (3)、kNN、OPTICS、Spoutlier、Cook の距離は、古典的な仮説検定設定に従いません。つまり、p 値や統計的有意性が得られません。 彼らは、各個人のエッジ/モジュールにスコア、外れ値スコアを割り当てます。 外れ値スコアのランキングは、個人のエッジ/モジュールがどの程度外れているかを定量化します。

\(H_0\) が拒否されない場合、外れ値としてテストされたエッジ/モジュールについては主張できません。 したがって、ターゲットのエッジ/モジュールを個別に特徴付ける必要はなく、母集団ベースの集約が最良の推定となります。 特に、式から、 (1) より、式 (1) がわかります。 (2) は次の必要十分条件です。

したがって、母集団ベースのエッジ重みと個人固有のエッジ重みの間のテストは、ISNs-L 式に基づく母集団ベースのネットワークと LOO ネットワークの間のテストと同等です。 重要性評価戦略の概要を図で示したものが図 5 です。

完全に接続された加重ネットワーク (つまり、すべてのノードが接続されている) で表される母集団と比較して個人が極端であるかどうかを評価する 3 つの異なるテスト シナリオ。 (a) この例は、3 つのノード (3 つのエッジ) のネットワークを示しています。 これは、より大きな人口ベースのグローバル ネットワークのサブネットワークとしてのモジュールである可能性があります。 (b) では、LOO ネットワークと人口ベースのネットワーク間の距離が計算されます。 人口ベースのネットワークが N 人の個人から推論される場合、LOO ネットワークは \(N-1\) 人の個人に基づくことに注意してください。 SSN-m はこのテスト シナリオを使用しますが、二変量の場合 (2 つのノードと 1 つの接続エッジ) に限定されます。 (c) では、人口ベース、LOO、および ISN という 3 つのタイプのネットワークが考慮されており、個々の q について強調表示されています。 (b) と同様に、(d) では、LOO ネットワークと人口ベースのネットワークの間の距離が、今回は人口ベースのネットワークと式 (1) の帰無仮説の下で期待される LOO の間の距離と対峙します。 (4) \(E(w_{ij}^{\alpha }) = E(w_{ij}^{\alpha -q}\))。 ヌル ネットワークは、推定された分散/共分散行列から N 人の個人に設定された特徴をサンプリングすることによって生成されるため、個人間に差がなく、ネットワークのエッジの重みに差が生じません。 このテスト シナリオは MultiLOO-ISN および LOO-ISN 実装に適用され、ヌル ネットワーク サンプリングに関する詳細情報が提供されます。 図 S5 はパイプラインを詳細に示しています。 最後に (e) では、ターゲット個人の特定のネットワークが母集団内の他の個人の ISN と比較され、ターゲット個人の外れ値スコアが得られます。 ネットワーク エッジの重みは、kNN、クック距離、OPTICS、および OTS 外れ値検出アルゴリズムで使用されます。

SSN-m21 は、\(w^{\alpha }\) と \(w^{\alpha +q}\) の差の変換として p 値を計算します。 \(w^{\alpha +q}\) は、相関を計算する前に個人を追加することによって計算されたエッジの重みです。 SSN-m は差動ネットワーク パラダイムで開発され、それに制限されています。 ネットワークは、LIONESS のように aq 観測を削除するのではなく、aq 観測を追加することによって計算されました。 視点を変えることで 2 つの状況 (観測値の追加または削除) を調整できるため、この矛盾は問題になりません。 \(PCC_n\) を n 個の観測値で計算された 2 つのノードのピアソン相関として定義し、\(\Delta PCC_n = PCC_{n+1}-PCC_{n}\) を観測値 n+1 を追加したときの相関の差として定義します。 。 (n+1) = N と設定し、1 つの観測値を削除すると、n = N-1 になります。LIONESS の状況と調整するのは簡単です。 p 値の計算は、次のように計算される Z スコアに基づいています。

基礎となる仮定は、分布の正規性です。

LOO-ISN は、リーブ・ワン・アウト・ファミリーに属しています。 単一エッジ (\(k=2\)) 設定では、ノード \(v_i\) と \(v_j\) があり、式 (1) で与えられる帰無仮説 \(H_0\) の下で、 (2) LOO-ISN メソッドは次のステップを実行します。 (1) 解析のデータセット (ノード値を含む \(N \times k\) 行列) を使用して、単一要素 \(w_{ij}^{\alpha }\) を含む人口ベースのネットワークを計算します。私たちの研究におけるピアソン相関。 (2) シミュレートされたデータ、つまり、ゼロ平均 (\(\mu = 0\))、単位分散、および \(w_{ij}^{\alpha }\) に等しい相関を持つ二変量正規分布から N 個の観測値を生成します。 ; (3) シミュレートされたデータを使用して \(\hat{w}_{ij}^{\alpha }\) を計算します。 (4) シミュレーション データから 1 つのサンプル (ind) を削除し、残りのデータの相関 \(\hat{e}_{ij}^{\alpha - ind}\) を計算します。 (5) \(\hat{w}_{ij}^{\alpha }\) と \(\hat{w}_{ij}^{\alpha - ind}\) の差を計算します。 6) 分析のデータセットから個々の q を削除し、各 \(q=1, \cdots , N\) に対して \(w_{ij}^{\alpha -q}\) を計算します。 7) 分析データセットで計算された \(w_{ij}^{\alpha } - {w_{ij}^{\alpha - q}}\) を \(\hat{w}_{ij} と比較します) ^{\alpha } - \hat{w}_{ij}^{\alpha - ind}\)、関連する p 値を取得するためにシミュレーション データに基づいて計算されます。 式で前述したように。 (4) では、母集団ベースのエッジと個別のエッジの間、または母集団ベースのエッジと LOO エッジの間のテストに相当します。

単一エッジ (\(k=2\)) の重要性評価のパイプラインを説明した上記の手順は、モジュール (\(k>2\)) を考慮した場合に直接一般化します。 ただし、そのような場合は、ステップ 2) でシミュレーション データを生成するために多変量正規分布を使用します。正規分布の次元はモジュールのサイズ k に等しくなります。 多変量正規シミュレーションでは、帰無仮説 \(H_0\) の下でネットワークの構造を模倣する必要があります。 したがって、分散/共分散行列を隣接行列 A に設定し、重み付けされたエッジの重み \(w_{ij}^{\alpha }\) をエントリとして正規化して、経験的なサンプル サイズに等しい N 個のサンプルを生成します。したがって、相関係数は分析のデータセット、つまり、間のすべてのエッジのエッジの重み \(w_{ij}^\alpha\) で推定されます。モジュール内の 2 つのノード \(v_i\) と \(v_j\)。 視覚的に表現するには、図 S5 を参照してください。

ステップ (7) の p 値の計算はシングルエッジ設定では簡単ですが、モジュール設定では複数のオプションが可能です。 LOO-ISN は、次元間の差異を合計して、単変量分布と拒否ゾーンを作成します。 したがって、モジュール全体をテストします。

Md をモジュールとして取り、\(Me = \{w_{ij}^q:i,j \in Md\}\) をモジュールに属するエッジの重みのセットとして定義します。 個々の q について、検定統計量 \(T_q\) を次のように定義しました。

次に \(T_q\) は、帰無仮説 \(H_0\) の下での差の合計の経験的分布と比較されます。つまり、 \(\hat{T}=\sum _{(i,j)\in Me}{ (\hat{w}_{ij}^\alpha -\hat{w}_{ij}^{\alpha -q})}\) となり、p 値が得られます。 LOO-ISN と MultiLOO-ISN の両方について、さまざまな手順を詳細に説明する疑似コードが補足で利用可能です。

MultiLOO-ISN は、前述の Leave-one-out パイプラインに従いますが、機能の集約のみが異なります。 MultiLOO-ISN は、モジュールを高次元空間内の点と見なし、モジュール内のエッジと同じ数の次元を持つ多次元拒否ゾーンを構築します。 ただし、検定統計量を計算するには、棄却ゾーンをスカラーに減らす必要があります。 したがって、最大不一致 (非線形) を適用して、 \(H_0\) の下で単変量分布を作成します。

モジュールに属するエッジの重みのセットを Me として、個々の q ごとに、検定統計量 \(T_q\) を次のように定義します。

次に、\(T_q\) を \(H_0\) の下での差の最大値の経験的分布と比較します。つまり、\(\hat{T}=\max _{(i,j)\in Md}{(\hat {w}_{ij}^\alpha -\ \hat{w}_{ij}^{\alpha -ind})}\) を実行し、p 値を取得します。

SSN-m、MultiLOO-ISN、および LOO-ISN は強い関連性があります。すべて正規性を仮定し、パラメータとしてサンプル サイズと経験的な母集団ベースの相関 \(w_{ij}^\alpha\) を考慮します。 シングルエッジ設定でも同様の結果が得られます。

Spoutlier30 は、kNN ロジックに基づいた高速実装です。 参照セットを定義し、このセットとターゲット観測値の間の距離を計算します。 次に、外れ値とはデータセット内のすべての観測値から遠く離れた観測値であると著者が述べているように、それらの距離の最小値が抽出されます。 これらの距離の最小値は OS です。 唯一のパラメータは、参照セット内の個体の数です。 元の論文の提案に従って \(s = 20\) を修正します。 この作業では、モジュール内の個々に固有のエッジの重みを特徴として取り上げます。

サイズ s の参照セットの観測部分の OS を定量化することは特殊なケースです。 何も対策が講じられない場合、それらの個人の距離は 0 になり、外れ値の程度を示すものではありません。 元の論文では、著者らは参照セットからのゼロ以外の最小距離を計算することでこの制限を克服しました。 このアプローチでは、高いサンプル サイズと個別の特徴による設定の類似点が見落とされます。 このような設定では、同じプロファイルを持つ複数の観測値、つまり複製が存在する可能性があります。 ターゲット観測の複製が参照セット内にある場合、距離 0 を破棄すべきではありません。 したがって、元のコードに若干の変更を加えました。 \(s+1\) 個の観測値をサンプリングし、ターゲットが参照セットに含まれる場合は、他の s 個の観測値を使用します。 それ以外の場合は、 \(s+1\) の観測値から s をランダムに抽出します。

距離の測定は最終的なパフォーマンスにとって非常に重要です。 データの幾何学的性質を考慮するために、コサイン類似度 (OTS コサイン) を提案します。 相違度は補数によって計算されます。 コサイン幾何学的計算には多次元の特徴空間が必要ですが、シングルエッジ設定では実行できません。 群衆の知恵のよく知られたパラダイム 56 を考慮して、アンサンブル手法を提案します。 パフォーマンスをより安定させるために、アルゴリズム (mOTS コサイン、mOTS euc) を複数回 (10 回) 繰り返します。 さらに、ユークリッド類似度とコサイン類似度の組み合わせ (mOTS glob) も提案します。 したがって、算術ファセットと幾何学ファセットが結合されます。 SSN-n ネットワークと ISNs-L ネットワークの両方にすべてのメソッドを実装しました。

Cook の距離はモジュールの理論的根拠に基づいています。 モジュールは、強く関連する変数 (おそらく遺伝子/分類群) のコレクションです。 したがって、クックの距離は、エッジまたはノードであるモジュールのコンポーネント間の共有情報を利用します。 クック距離の提案された適応は、モジュール内の他のすべてのエッジの重みを各反復の予測子として使用する線形モデルを介してエッジの重みを予測します。 サイズ k のモジュール、ノード数が \(k=\) の場合、エッジ間のペアごとの組み合わせ (順序は考慮されません) の数は \(C = \frac{k(k-1)}{2}\ となります。 )。 特に、\(q= \{1,\ldots ,N\}\) と \(c=\{1,\ldots ,C\}\) については、線形モデル (LM) を使用してエッジを予測しますモジュール内の 1 つおきのエッジの重み \(w_{lm}^q\) を持つ重み \(w_{ij}^q\)、 \((l,m) \in \{1, 2, \dots , k \ }^2\) と \((l,m) \ne (i,j)\) および \(l < m\):

次に、クック距離を適用して、どの観測値が外れていて (残差が高く)、かなりの影響力を持っている、つまり \(w_{ij}^q\) の推定に強い影響を与えているのかを特定します。 観測値 q とエッジの重み \(w_{ij}\) (ノード \(v_i\) と \(v_j\) を接続する) をターゲットとするクック距離は次のように定義されます。

ここで、 \(\hat{w}_{ij}^{p(q)}\) は、個々の q を除外したときに得られる近似応答値です。

クック距離の計算は、(1) 観測ごとに繰り返され、\(D_{ij}^1\)、\(\ldots\)、\(D_{ij}^N\) が得られます。2) 各エッジについてモジュール内でターゲットとして使用すると、\(D_{12}^q\)、\(\ldots\)、\(D_{k-1k}^q\) が得られます。 最後に、観測値 q ごとに、すべての \(D^q\)={\(D_{ij}^q\) を \(j=2,\ldots , k\)、\(i=1, \ldots , k-1, i

Angiulli31 からの実装に焦点を当てます。 この拡張機能は、外れ値検出のために開発されました。 特徴として、モジュール Me 内のすべてのエッジの重みを使用します。 詳細については、元の論文と補足の方法のセクションを参照してください。

OPTICS-OF (本稿では単に OPTICS と呼びます) は、外れ値検出のために開発された DBSCAN の拡張機能です。 対象モジュール内のエッジの重みが特徴です。 OPTICS では異常値のスコアが得られます。 詳細については、元の論文と補足方法のセクションを参照してください。

グラウンド トゥルースが利用可能な場合、合成データを使用して上記の方法を評価および比較しました。 さまざまな仮定、生成スキーム、パラメーターを使用して、いくつかの異種設定を作成しました。 特に、(i) 正規分布と (ii) 構成スキームという 2 つの異なる生成スキームを採用しました。 どちらのスキームでも、\(NM\) コントロールと M ケースの異なる分布パラメーターを介して、分析のデータセット (行上の個人、列上の特徴、次元 \(N\times k\)) をシミュレートします。 、外れ値。

両方のスキームの共通パラメータは、(1) サンプル サイズ N、100 ~ 2000 の間で変化します。 (2) 外れ値の個人の数 M、1 ~ 10 の範囲で変化します (パーセンテージは \(0.05\%\) から \(10\%\) まで)。 (3) モジュール内のノードの数を定量化するモジュールのサイズ k は、シングルエッジ シナリオの 2 から 17 まで変化します。正規分布シミュレーション スキームと組成シミュレーション スキームの両方で、多変量​​確率変数 [多変量正規分布 (i )] そして、この多変量分布から各個人の変数セット (つまり、ノード) をサンプリングします。 個人は独立してサンプリングされ、すべての対照個人は同じパラメーターを持つ分布からサンプリングされます。 次に、ピアソン相関を分析のサンプリング データセットに適用して、人口ベースのネットワーク (単一エントリ \(w_{ij}^{\alpha }\)) を構築します。 この人口ベースのネットワークは、ISN 計算の入力となります。 さらに、正規分布スキームに対して 2 つの異なる外れ値生成分布を採用し、外れ値が同じ分布に属するか、またはそれぞれが独自の分布に由来するかを指定しました。 微生物スキームの特定のパラメーターは以下を制御します: (1) データの不均一性の程度 (均一から高まで変化します)。 (2) 異なる微生物間の倍率 (1.1 から 2)。 (3) 症例と対照を区別する水増しパラメータの割合 (\(10\%\) から \(40\%\) まで)。

特にデータ分布の仮定に基づいて、複数のパラメーター設定を検討しました。 パラメータの組み合わせはグリッドに保存されます。 データ シミュレーション ステップで作成されたパラメーターのグリッドの各エントリ (行) に対して、複数の実行 (正規分布で 200 回、組成で 150 回) を実行しました。 したがって、分析のデータセット (行上の個人、列上のフィーチャ/ノード) とグランド トゥルースが生成されます。 これらの実行のそれぞれに対して、提示されたすべての手法を適用し、それぞれの手法で次元 N のベクトル OS が得られます。このベクトルには M ケースと \(NM\) コントロールが含まれており、個人の外れ値スコアを表します。 各個人のラベル GT は、グループのメンバーシップ、つまりケース (外れ値) またはコントロール グループに属することを指します。 個々の \(i=1,\cdots , N:\) について

分析のデータセットを構成するデータは、多変量法線を通じてサンプリングされます。 平均ベクトルは 0 に固定されますが、分散共分散構造は M 個のケースと \(NM\) 対照の間で異なります。 パラメータ k (モジュール サイズ) は法線の次元を制御します。 サンプリングされた症例と対照の観察結果が結合され、分析のデータセットが構成されます。つまり、集団内の遺伝子発現を模倣します。 個人のグラウンド トゥルース GT は、提案された方法のパフォーマンスを評価するために使用されます。 視覚的なパイプラインを図 S6 に示します。

基本パラメータは N、M、k、外れ値の生成であり、詳細については表 5 を参照してください。 複数のパラメーターを変更し、各行が基本パラメーターの一意の組み合わせであり、設定と呼ばれるグリッド内で展開することによってデータを生成しました。 パラメーターの組み合わせにより、合計 168 の異なる設定が生成されました。 生成と評価のステップ、つまり提案された方法をデータに適用するステップは、Rep = 200 回繰り返してノイズを低減し、堅牢で再現性のある結果を保証しました。

私たちは Harrison57 の研究を拡張し、微生物データをシミュレートするための Dirichlet ベースのモデルを提案しました。 まず、次のものからサンプリングしました。(1) しきい値 = 1 および \(\alpha\) = 0.7 のパレート分布。 または (2) しきい値 = 1 および \(\alpha\) = 4 のパレート分布。 または (3) 値 = 1 の一様分布。パレート分布は、豊富な特徴がほとんどなく、まれな特徴が多数あるデータを記述します。 すべてのノードは一様分布で等しい確率質量を持ちます。 したがって、単一エントリのスカラー \(d_i\) と \(i=1,\cdots ,p\) を使用してベクトル D を生成しました。 D は、ディリクレ サンプリングの濃度パラメーター (\(\alpha\)) として使用される中間結果です。 \(d_i\) のベクトルがあれば、各ノード、各分類群にどれだけの確率質量を割り当てるかがわかります。

次に、ケースとコントロールの観測値が乗算器 (Mult) によって微分され、単一エントリのスカラー \(e^1_i\) を使用して D から \({E^1}\) が生成されます。 乗数は、\(Mult=\{1.1,\ 1.5,\ 2\}\) の場合と範囲でノードの確率質量を膨らませます。 インフレートするノードのパーセンテージはパラメータ \(PercIncrease=\{\ 10\%,\ 25\%,\ 40\%\}\) で指定されます。 正規性シミュレーション スキームと同様に、パラメーターをグリッド内で組み合わせました。 ケースコントロール微分後、パラメーター、つまり \({E^1}\) と D は、密度の違いによるスケール効果を避けるために同じ合計に標準化されます。

\(i=1,\ldots ,p\) なので、ベクトル \(E*\) が形成されます。

次に、強度パラメーターである \(Int=3\) に対して \(E*\) と D を乗算して、微分を強調しました。 次に、 \(NM\) 対照個体ごとに、D がディリクレ サンプリングの濃度パラメーターとして使用されます。 個々の q について、ディリクレ サンプリングの結果は \(pr^q\)、次元 \(p \times 1\) になります。 \(NM\) の個人のすべての \(pr^q\) を結合すると、次元 \((NM) \times p\) の pr 行列が得られ、単一のエントリ \(pr_i^q\) の確率が得られます。個体qにおける分類群iの。 個々の q に対して、多項サンプリング手順の下流入力パラメータとして \(pr^q\) を使用し、追加のパラメータ読み取り数 \(=5000\) を使用しました。 読み取り数は、確率ベクトル \(prob=pr^q\) を使用した多項サンプリングで p 個のボックス (ノード) に分割するオブジェクトの総数を指定します。 このステップは、読み取り数 = 5000、ゼロインフレ、組成的、不均一確率のベクトルを持つ個人のマイクロバイオーム読み取りを模倣します。 個々の q に対して生成される結果は、制御設定の下での存在量のベクトルです。 同様の手順を適用して、D の代わりにパラメーター \({E^*}\) を使用して個別の M ケースを生成します。 \(NM\) コントロールの存在量と M ケースをシミュレーションの分析データセットに結合します。 網羅的なパイプラインは図 S7 にあります。

偏った完全な負の相関を避けるために、ターゲットのモジュールの 10 倍 (ノード数に関して) のネットワーク \(p=10\times k\) をサンプリングしました。 次に、中心対数比 (CLR) 変換を適用しました58。 最後のステップでのみ、ターゲット モジュールに焦点を当てます。 我々は、この手順が k 次元モジュールの Mult によって生成される少なくとも 1 つの微分を保存することを保証しました。 そうでなければ、ケースとコントロールの違いを理論的に正当化することはできません。

表 5 は、パラメーター値の最終グリッドを示しています。 パラメーターの組み合わせにより、合計 972 の異なる設定を生成しました。 生成と評価のステップは設定ごとに \(Rep=150\) 回繰り返されるため、ノイズが低減され、堅牢で再現性のある結果が保証されます。 正規性のシミュレーションと比較すると、パラメーター N と k は限られたセット内で変化します。 この制限により、マイクロバイオーム固有のパラメーターの追加が補われ、計算負荷が制御されます。

メソッドの実行結果は外れ値スコア ベクトル OS です。 このベクトルは降順に並べられ、グラウンド トゥルース ベクトル GT (外れ値の場合は 1、そうでない場合は 0) と比較されます。 しきい値を固定し、OS を 2 値化すると評価タスクには役立ちますが、検討されているほとんどの方法については既知のしきい値や p 値の計算がありません。 結果を評価する自然な方法は、しきい値を変更し、対応する ROC 曲線を作成することです。 各設定のすべての実行 (200 正規分布、150 微生物) を平均してパフォーマンスを集計しました。 パフォーマンスの変動性と歪度を考慮して、集計指標として中央値を使用しました。

これらのファミリーのほとんどには調整するパラメーターがあるか、さまざまな集計が使用できるため、実装の数は膨大になります。 一貫性を保つために、可能であれば、すべてのパラメーターの選択について SSN-n と ISNs-L の両方にすべての方法を適用しました。 kNN では、2 つの異なるパラメーターのセット \(k_{min}\) と \(k_{max}\) を定義しました。 1) まず、\(k_{min}\) と \(k_{max}\) は、それぞれ log(N) と k の間の最小値と最大値であり、サンプル サイズは N、モジュールのサイズは k です。 このパラメータの設定は、変数とサンプル空間の両方を要約します。 次に、(2)、\(k_{min}\) と \(k_{max}\) は、5 (kNN のベースライン パラメーターとして見られる) と sqrt(N) の間の最小値と最大値であり、30 のベースラインとしても取得されます。 。 OPTICS-OF では、パラメータ n、つまり近傍数を kNN と同様に 5、\(\sqrt{N}\) または \(mean(log(n), k+1)\) に設定します。モジュールとサンプルサイズの両方を要約します。 Spoutlier の唯一のパラメータである参照セットの次元は、元の論文で経験的に見つかったように \(s=20\) として設定されます。 距離測定として (1) ユークリッド距離と (2) コサイン類似度を実装しました。 アンサンブル手法を mOTS メソッドに適用し、20 個のベースライン サンプルを繰り返し選択し、さまざまな結果を中央値で集計しました。 クック距離で考慮された集計は、モジュール内のすべてのエッジにわたる (1) 最大、(2) 平均、または (3) 中央値でした。 すべての組み合わせとアプローチは補足で説明されています。

この記事の基礎となるデータセットは、Euregional Microbiome Center (www.microbiomecenter.eu) からリクエストに応じて入手できます。 シミュレーション データ、コード、グラフは、GitHub リポジトリ (https://github.com/FedericoMelograna/Sign_ISN) で公開されています。

コードとシミュレーションは、GitHub (https://github.com/FedericoMelograna/Sign_ISN) で無料で入手できます。 分析、ソフトウェア、視覚化の詳細については、補足方法のソフトウェア分析と視覚化セクションを参照してください。

Ozturk, K.、Dow, M.、Carlin, D.、Bejar, R. & Carter, H. 精密がん医療に情報を提供するためのネットワーク分析の新たな可能性。 J.Mol. バイオル。 430、2875–2899。 https://doi.org/10.1016/j.jmb.2018.06.016 (2018)。

論文 CAS PubMed PubMed Central Google Scholar

Barabasi, A.、Gulbahce, N.、Loscalzo, J. ネットワーク医学: 人間の病気に対するネットワークベースのアプローチ。 ナット。 ジュネ牧師。 12、56–68。 https://doi.org/10.1038/nrg2918 (2010)。

記事 CAS Google Scholar

Sonawane, A.、Weiss, S.、Glass, K. & Sharma, A. 生物医学ビッグデータ時代のネットワーク医学。 フロント。 ジュネット。 10、294。https://doi.org/10.3389/FGENE.2019.00294 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

チェン、L.ら。 腸内微生物共存在ネットワークは、炎症性腸疾患と肥満に特異性を示します。 ナット。 共通。 11、1~12。 https://doi.org/10.1038/s41467-020-17840-y (2020)。

記事 CAS Google Scholar

Urbanowicz、RJ、Meeker、M.、La Cava、W.、Olson、RS & Moore、JH 救済ベースの機能の選択: 概要とレビュー。 J.Biomed. 知らせる。 85、189–203。 https://doi.org/10.1016/j.jbi.2018.07.014 (2018)。

記事 PubMed PubMed Central Google Scholar

デュルー、D.、クリメンテ ゴンザレス、H.、アゼンコット、C.-A. & Van Steen, K. 解釈可能なネットワーク誘導エピスタシス検出。 ギガサイエンスhttps://doi.org/10.1093/gigascience/giab093 (2022)。

記事 PubMed PubMed Central Google Scholar

Menche、J. et al. パーソナライズされた遺伝子発現プロファイルを疾患関連遺伝子プールの予測に統合します。 NPJ システムバイオル。 Appl.https://doi.org/10.1038/s41540-017-0009-0 (2017)。

記事 PubMed PubMed Central Google Scholar

Kosorok, M. & Laber, E. 精密医療。 アンヌ。 牧師州。 応用 6、263–286。 https://doi.org/10.1146/annurev-statistics-030718-105251 (2019)。

記事 MathSciNet PubMed PubMed Central Google Scholar

Bzdok, D.、Varoquaux, G.、Prediction、SE & Association、N. 精密医療への道を切り開きます。 JAMA 精神医学 78(2)、127–128。 https://doi.org/10.1001/jamapsychiatry.2020.2549 (2021)。

論文 PubMed Google Scholar

Moore, J. & Williams, S. 生物学的エピスタシスと統計的エピスタシスの間の概念的な溝の横断: システム生物学とより現代的な総合。 バイオエッセイ 27(6)、637–46。 https://doi.org/10.1002/bies.20236 (2005)。

論文 CAS PubMed Google Scholar

リュー、W.ら。 効率的なガウス サンプル固有のネットワーク マーカーの発見と薬物濃縮分析の検証。 計算します。 バイオル。 Chem.https://doi.org/10.1016/j.compbiolchem.2019.107139 (2019)。

論文 ADS PubMed Google Scholar

Huang, Y.、Chang, X.、Zhang, Y.、Chen, L.、Liu, X. 偏相関に基づくサンプル固有のネットワークを使用した疾患の特徴付け。 簡単な。 Bioinform.https://doi.org/10.1093/bib/bbaa062 (2020)。

記事 PubMed PubMed Central Google Scholar

Kuijjer, M.、Tung, M.、Yuan, G.、Quackenbush, J. & Glass, K. サンプル固有の規制ネットワークの推定。 科学https://doi.org/10.1016/j.isci.2019.03.021 (2019)。

記事 Google Scholar

Dai, H.、Li, L.、Zeng, T. & Chen, L. 単一細胞の rna シーケンス データによって構築された細胞固有のネットワーク。 核酸研究 https://doi.org/10.1093/nar/gkz172 (2019)。

記事 PubMed PubMed Central Google Scholar

Li, L.、Dai, H.、Fang, Z. & Chen, L. c-csn: 条件付き細胞特異的ネットワークによる単一細胞 rna シーケンス データ分析。 ジェノム。 プロテオム。 Bioinform.https://doi.org/10.1016/J.GPB.2020.05.005 (2021)。

記事 Google Scholar

Flashner-Abramson, E.、Vasudevan, S.、Adejumobi, I.、Sonnenblick, A. & Kravchenko-Balasha, N. がんの不均一性の解読: 個別化されたがん治療に向けた患者固有のシグナル伝達シグネチャの研究。 Theranostics 9、5149–5165。 https://doi.org/10.7150/thno.31657 (2019)。

論文 CAS PubMed PubMed Central Google Scholar

Guo, W.-F.、Zhang, S.-W.、Zeng, T.、Akutsu, T. & Chen, L. がんにおける個人化されたドライバー遺伝子を特定するためのネットワーク制御原理。 簡単な。 バイオインフォーム。 21、1641 ~ 1662 年。 https://doi.org/10.1093/bib/bbz089 (2019)。

記事 CAS Google Scholar

Bian, J.、Xie, M.、Topaloglu, U.、Cisler, JM 新しいバイオマーカーを発見するための機能的脳接続ネットワークの確率モデル。 AMIAサミット翻訳。 科学。 手順 2013、21(2013)。

PubMed PubMed Central Google Scholar

Doucet、G. et al. 術前の安静状態の局所グラフ理論測定により、側頭葉てんかんの脳手術後の神経認知転帰を予測します。 てんかん 56(4)、517-26。 https://doi.org/10.1111/epi.12936 (2015)。

論文 PubMed Google Scholar

ゴサック、M.ら。 さまざまなスケールでの生物システムのネットワーク科学: レビュー。 物理学。 Life Rev.https://doi.org/10.1016/j.plrev.2017.11.003 (2018)。

論文 PubMed Google Scholar

Liu, X.、Wang, Y.、Ji, H.、Aihara, K. & Chen, L. サンプル固有のネットワークを使用した疾患のパーソナライズされた特性評価。 核酸研究所 44、772。https://doi.org/10.1093/nar/gkw772 (2016)。

記事 CAS Google Scholar

マロン、B.ら。 他の臨床病態表現型にも影響を与える、肥大型心筋症におけるネットワークベースの精密医療のための個別化されたインタラクトーム。 ナット。 Commun.https://doi.org/10.1038/s41467-021-21146-y (2021)。

記事 PubMed PubMed Central Google Scholar

ハ、M.ら。 がんプロテオーム アトラスのパーソナライズされた統合ネットワーク モデリング。 科学。 代表者https://doi.org/10.1038/s41598-018-32682-x (2018)。

記事 PubMed PubMed Central Google Scholar

グレゴリッチ、M.ら。 予測モデリングの特徴としての主題固有のネットワーク: 手法の範囲のレビュー。 科学。 代表者https://doi.org/10.13140/RG.2.2.24616.499 (2021)。

記事 Google Scholar

Elo, LL & Schwikowski, B. 個人間の時間分解遺伝子発現測定の分析。 プロスワン8、1-8。 https://doi.org/10.1371/journal.pone.0082340 (2013)。

記事 CAS Google Scholar

Yu、X.ら疾病予測のための個人固有のエッジネットワーク分析。 核酸研究所 45、787。https://doi.org/10.1093/nar/gkx787 (2017)。

記事 CAS Google Scholar

Jahagirdar, S. & Saccenti, E. メタボロミクスベースのシステム医学のための単一サンプル ネットワーク推論法の評価。 J.プロテオームRes. 20、932–949。 https://doi.org/10.1021/acs.jproteome.0c00696 (2021)。

論文 CAS PubMed Google Scholar

Korte-de Boer, D. et al. 幸運の出生コホート研究、理論的根拠と設計。 BMC 公衆衛生 15、1 ~ 7。 https://doi.org/10.1186/S12889-015-2255-7 (2015)。

記事 Google Scholar

Tripathi, S.、Moutari, S.、Dehmer, M. & Emmert-Streib, F. タンパク質ネットワークにおけるモジュール検出アルゴリズムの比較と、予測されたモジュールの生物学的意味の調査。 BMC Bioinform.https://doi.org/10.1186/s12859-016-0979-8 (2016)。

記事 Google Scholar

杉山 M. & Borgwardt, K. サンプリングによる距離ベースの迅速な外れ値検出。 上級神経情報プロセス。 システム。 26、1–10 (2013)。

Google スカラー

Angiulli, F. & Pizzuti, C. 高次元空間での高速外れ値検出。 コンピュータサイエンスの講義ノート (人工知能のサブシリーズ講義ノートおよびバイオインフォマティクスの講義ノートを含む)、2431 LNAI、15–27、https://doi.org/10.1007/3-540-45681-3_2 (2002)。

Ankerst, M.、Breunig, MM、Kriegel, HP & Sander, J. Optics: クラスター構造を特定するための順序付けポイント。 SIGMOD Rec. 28、49–60。 https://doi.org/10.1145/304181.304187 (1999)。

記事 Google Scholar

ファウスト、K.ら。 ヒトマイクロバイオームにおける微生物の共起関係。 PLOS コンピューティング。 バイオル。 8、1002606。https://doi.org/10.1371/JOURNAL.PCBI.1002606 (2012)。

記事 Google Scholar

Li, X.、Wang, X. & Xiao, G. ゲノム アプリケーションにおける部分的および上位ランクのリストのランク集計方法の比較研究。 簡単な。 バイオインフォーム。 20、178–189。 https://doi.org/10.1093/bib/bbx101 (2017)。

論文 CAS PubMed Central Google Scholar

O'bray, L.、Rieck, B. & Borgwardt, K. グラフ表示のための濾過曲線。 グラフ表示のための濾過曲線。 簡単な。 Bioinform.https://doi.org/10.1145/3447548.3467442 (2021)。

論文 PubMed Google Scholar

Fiedler, M. グラフの代数的接続性。 チェコ語。 数学。 J. 23, 298–305 (1973)。

記事 MathSciNet MATH Google Scholar

de Abreu、NMM グラフの代数接続性に関する古い結果と新しい結果。 線形代数アプリケーション。 423、53–73。 https://doi.org/10.1016/j.laa.2006.08.017 (2007)。

記事 MathSciNet MATH Google Scholar

Galazzo、G. et al. 乳児期から幼児期までに収集された便サンプルの縦断的分析による、微生物叢の発達と出生形態、食事、アトピー性疾患との関連性。 消化器病学 158、1584–1596。 https://doi.org/10.1053/j.gastro.2020.01.024 (2020)。

論文 CAS PubMed Google Scholar

Jahagirdar, S. & Saccenti, E. ネットワーク差動接続性解析における代謝物間の関連性の尺度としての相関と mi の使用について。 代謝物https://doi.org/10.3390/metabo10040171 (2020)。

記事 PubMed PubMed Central Google Scholar

Conesa, A.、Madrigal, P.、Tarazona, S. rna-seq データ解析のベスト プラクティスに関する調査。 ゲノムバイオル。 17、13。 https://doi.org/10.1186/s13059-016-0881-8 (2016)。

論文 CAS PubMed PubMed Central Google Scholar

Anders, S. & Huber, W. 配列数データの差次的発現分析。 ゲノムバイオル。 11、1~12。 https://doi.org/10.1186/gb-2010-11-10-r10​​6 (2010)。

記事 CAS Google Scholar

Robinson, MD & Smyth, GK タグ存在量の違いを評価するためのモデレートされた統計テスト。 バイオインフォマティクス 23、2881–2887。 https://doi.org/10.1093/bioinformatics/btm453 (2007)。

論文 CAS PubMed Google Scholar

Walker, W. 新生児、小児、成人の健康における腸の適切な初期細菌定着の重要性。 小児科。 Res.https://doi.org/10.1038/pr.2017.111 (2017)。

論文 ADS PubMed Google Scholar

Smiti, A. 外れ値検出方法の重要な概要。 計算します。 科学。 Rev. 38、100306。https://doi.org/10.1016/j.cosrev.2020.100306 (2020)。

記事 MathSciNet MATH Google Scholar

Wang, H.、Bah, M.、Hammad, M. 外れ値検出技術の進歩: 調査。 IEEE アクセス 7、107964 ~ 108000。 https://doi.org/10.1109/access.2019.2932769 (2019)。

記事 Google Scholar

Duroux, D. & Steen, K. netanova: 階層型分散分析による有意性評価を備えた新しいグラフ クラスタリング手法。 BioRxivhttps://doi.org/10.1101/2022.06.28.497741 (2022)。

記事 Google Scholar

Yu, X.、Chen, X. & Wang, Z. 個人固有のエッジネットワーク分析による疾患分類のための個人化された微生物叢の動態の特徴付け。 フロント。 Genet.https://doi.org/10.3389/fgene.2019.00283 (2019)。

記事 PubMed PubMed Central Google Scholar

Reyman, M.、Houten, M.、Baarle, D. 出産モードに関連する腸内細菌叢動態が生後 1 年間の健康に及ぼす影響。 ナット。 共通。 10、4997。https://doi.org/10.1038/s41467-019-13014-7 (2019)。

論文 ADS CAS PubMed PubMed Central Google Scholar

ドミンゲス・ベロ、MG 他分娩モードは、新生児の複数の体内生息地にわたる初期微生物叢の獲得と構造を形成します。 手順国立アカド。 科学。 USA 107、11971–11975。 https://doi.org/10.1073/pnas.1002601107 (2010)。

論文 ADS PubMed PubMed Central Google Scholar

Sevelsted, A.、Stokholm, J.、Bønnelykke, K. & Bisgaard, H. 帝王切開と慢性免疫疾患。 小児科 135、e92–e98。 https://doi.org/10.1542/peds.2014-0596 (2015)。

論文 PubMed Google Scholar

Mueller, NT et al. 出生前の抗生物質への曝露、帝王切開、小児肥満のリスク。 内部。 J.オベス。 2005(39)、665–670。 https://doi.org/10.1038/ijo.2014.180 (2015)。

記事 Google Scholar

スターンズ、JC et al. 培養および分子ベースのプロファイルは、加齢に伴う上気道の細菌群集の変化を示しています。 ISME J. 9、1246–1259。 https://doi.org/10.1038/ismej.2014.250 (2015)。

記事 PubMed PubMed Central Google Scholar

Nearing, J.、Douglas, G.、および Hayes, M. マイクロバイオームの存在量の差分法では、38 のデータセットにわたって異なる結果が得られます。 ナット。 共通。 13、342。https://doi.org/10.1038/s41467-022-28034-z (2022)。

論文 ADS CAS PubMed PubMed Central Google Scholar

Guo, W.、Yu, X.、Shi, Q.、Liang, J. & Zhang, S. バルクおよび単一細胞の生物学的データ分析のためのサンプル固有のネットワーク制御法のパフォーマンス評価。 PLOS コンピューティング。 バイオル。 17、1008962。https://doi.org/10.1371/journal.pcbi.1008962 (2021)。

記事 CAS Google Scholar

Kuijjer, M.、Hsieh, P. & Quackenbush, J. lionessr: r での単一サンプル ネットワーク推論。 BMC Cancer 19、1003。https://doi.org/10.1186/s12885-019-6235-7 (2019)。

記事 PubMed PubMed Central Google Scholar

Surowiecki, J. 『群衆の知恵』 (アンカー、2005 年)。

Google スカラー

Harrison, JG、Calder, WJ、Shastry, V.、Buerkle, CA ディリクレ多項モデリングは、マイクロバイオームやその他の生態系数データの分析において、代替手法よりも優れた性能を発揮します。 科学。 代表者https://doi.org/10.1101/711317 (2019)。

記事 PubMed PubMed Central Google Scholar

Aitchison, J. 組成データの統計分析 (Chapman および Hall、1986)。

MATH を予約する Google Scholar

リファレンスをダウンロードする

この研究は、リエージュ大学、マーストリヒト大学、マーストリヒト大学医療センター+、およびアーヘン工科大学ユニクリニック間の宿主とマイクロバイオームの相互作用に関する国境を越えた取り組みである欧州マイクロバイオームセンター (www.microbiomecenter.eu) 内に組み込まれました。 資金は、Marie Sklodowska-Curie 助成契約番号 813533 (mlfpm.eu) および番号 860895 (h2020transys.eu) に基づいて、欧州連合の Horizo​​n 2020 研究およびイノベーション プログラムから受け取られました。 ISN に関する議論を刺激してくれたリエージュ大学 (ベルギー) BIO3 研究室の Diane Duroux と、ディリクレ サンプリングに関する議論と説明をしてくれたミラノ大学ビコッカ校の Alice Giampino に多大な感謝を申し上げます。

Fabio Stella と Kristel Van Steen の著者も同様に貢献しました。

BIO3 - システム医学研究所、人類遺伝学科、ルーヴェン大学、ルーヴェン、ベルギー

フェデリコ・メログラーナ、ズーチー・リー、クリステル・ヴァン・スティーン

栄養・代謝トランスレーショナル研究学部(NUTRIM)、医療微生物学部感染症および感染予防、マーストリヒト大学医療センター+、マーストリヒト、オランダ

ジャンルカ・ガラッツォ & ジョン・ペンダース

RWTH 大学病院アーヘン医療微生物研究所、RWTH 大学、アーヘン、ドイツ

ニールス・ファン・ベスト

マーストリヒト大学、ケア・公衆衛生研究所疫学部門(CAPHRI)、マーストリヒト、オランダ

ニールス・ヴァン・ベスト & モニーク・モマーズ

ケアおよび公衆衛生研究所 (CAPHRI)、マーストリヒト大学、マーストリヒト、オランダ

ジョン・ペンダース

ミラノ・ビコッカ大学情報学・システム・コミュニケーション学部、20126年、ミラノ、イタリア

ファビオ・ステラ

BIO3 - システム遺伝学研究所、GIGA-R メディカル ゲノミクス、リエージュ大学、リエージュ、ベルギー

クリステル・ヴァン・スティーン

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

PubMed Google Scholar でこの著者を検索することもできます

FM、FS、および KVS が手法を開発し、FM、FS および KVS がシミュレーションを考案し、FM がシミュレーションを実行し、FM と ZL が結果を分析しました。 KVS、FM、JP は結果の解釈を支援し、MM、JP、GG、NVB は実際のデータ アプリケーションの分析と解釈を支援しました。 GG と JP は、LucKi コホートに対して DMM 分析を実行しました。

フェデリコ・メログラーナへの通信。

著者らは競合する利害関係を宣言していません。

シュプリンガー ネイチャーは、発行された地図および所属機関における管轄権の主張に関して中立を保ちます。

オープン アクセス この記事はクリエイティブ コモンズ表示 4.0 国際ライセンスに基づいてライセンスされており、元の著者と情報源に適切なクレジットを表示する限り、あらゆる媒体または形式での使用、共有、翻案、配布、複製が許可されます。クリエイティブ コモンズ ライセンスへのリンクを提供し、変更が加えられたかどうかを示します。 この記事内の画像またはその他のサードパーティ素材は、素材のクレジットラインに別段の記載がない限り、記事のクリエイティブ コモンズ ライセンスに含まれています。 素材が記事のクリエイティブ コモンズ ライセンスに含まれておらず、意図した使用が法的規制で許可されていない場合、または許可されている使用を超えている場合は、著作権所有者から直接許可を得る必要があります。 このライセンスのコピーを表示するには、http://creativecommons.org/licenses/by/4.0/ にアクセスしてください。

転載と許可

Melograna、F.、Li、Z.、Galazzo、G. 他。 個別固有のネットワークにおけるエッジおよびモジュールの重要性評価。 Sci Rep 13、7868 (2023)。 https://doi.org/10.1038/s41598-023-34759-8

引用をダウンロード

受信日: 2022 年 9 月 19 日

受理日: 2023 年 5 月 7 日

公開日: 2023 年 5 月 15 日

DOI: https://doi.org/10.1038/s41598-023-34759-8

次のリンクを共有すると、誰でもこのコンテンツを読むことができます。

申し訳ございませんが、現在この記事の共有リンクは利用できません。

Springer Nature SharedIt コンテンツ共有イニシアチブによって提供

コメントを送信すると、利用規約とコミュニティ ガイドラインに従うことに同意したことになります。 虐待的なもの、または当社の規約やガイドラインに準拠していないものを見つけた場合は、不適切としてフラグを立ててください。

共有