データ解析に必要なパソコンの準備

データ解析に必要なパソコンの準備

 バイオインフォマティクス関係のデータ解析を行う上で必要なPCのスペックに関して記載いたします。
 当部門のデータ解析環境構築(受託業務)データ解析用アプリ構築(受託業務)のご依頼を検討している方は、以下の情報をご参照ください。
 ご不明点や具体的な選定のご相談につきましては、下記までご相談ください。

データ解析用PCの選定の際の前提条件

 すでに解析に使えそうなPCをお持ちの方は、下記のスペック要件を満たしているかどうか、ご参考にしていただけますと幸いです。

 研究室単位で1つの解析用PCを導入する場合、次世代シーケンス解析だけではなく、他の分野の市販の解析ソフトウェアも導入したいケースも多いと思います。
 また、これから新しくバイオインフォマティクス解析をやってみたい方の場合、PCの扱い、コマンド操作に不慣れなが多いと思います。
 そのため、これから新しくPCを購入予定の方には、WindowsのPCをお勧めしております。
(WindowsのPCであっても、WSL2の導入によりLinuxコマンドを実行することが可能です。)
 予算の都合などで、下記のスペック要件を全て満たすのが難しい場合は、RAM数、1stストレージ容量を優先するようにしてください。(これらのスペックが不足すると、処理速度が低下するだけではなく、解析の実行ができなくなってしまいます。)

 扱うデータのサイズが大きい場合、下記のスペックのPCでも解析を実行できない場合があります。
 特に、リード数をより多く取得したシーケンス解析データの場合、シングルセル解析などのデータ量の多い解析を行った場合などのマッピングは、デスクトップ型のPCのスペックでは解析が難しいため、解析用サーバー(Linux サーバー)の構築が必要になります。サーバー管理の手間と費用を考慮すると、遺伝研などのスパコン(Linux操作の習得が必須)を利用する方がより簡便です。
 

データ解析用PCの選定例

お手持ちのノートパソコンをご使用の場合(低スペックでも可、中級者向け)

OS:Windows (Mac, Linuxでも可)
CPU:core i5 程度
RAM:8GB 程度

 プログラミング言語を扱ったコマンド操作が必要になりますが、低スペックのPCであっても解析を実行可能です。
 初心者の方であっても、プログラミングコードの扱いに抵抗感が無い方であれば、当部門の技術支援などを受けつつ、一から技術習得が可能です。
 下記のようなサービス(一部有料)などを使用した解析が可能です。

  • 遺伝研などのスパコン(Linux操作の習得が必須)を使用してコマンド操作用解析パッケージを扱った解析を実行する。
    ファイルサイズが大きくても、重いデータ処理を実行可能。
    当部門のデータ解析環境構築(受託業務)で作製した環境をスパコンに移植して使用可能。
    (RStudio, Jupyter Labは使用できないため、直接Linux環境を操作する必要がある。)
  • Posit Cloudというクラウドサービスを介して、オンライン上でRStudio, Jupyter Notebookを利用する。
    ファイルサイズの小さい表データのデータ整形・作図などができます。

 

小規模な表データの統計解析・作図用のPC(初心者向け)

OS:Windows (Windows11 Proなど) (Mac, Linuxでも可)
CPU:core i7 以上
RAM:16GB以上
1stストレージ:500GB 程度
2stストレージ:1TB 程度

  • 次世代シーケンス解析の詳細解析後の表データ(countデータ、FPKM, TPMデータなど)、メタボローム解析後の結果(化合物の濃度データなど)を用いて、統計検定の実施、基本的な作図(Heatmap, PCA, Dot Plotなど)を実行する場合などにお勧めです。
  • このぐらいのスペックがあれば、ローカルPC内で大きいサイズの表データをExcel開き、ソート・絞り込み検索などを実行しやすいと思います。
  • RAMが8GBしかない場合は、上記のようなサイズの大きい表データを扱うのは難しいと思われます。
    (実行はできるかもしれませんが、途中で処理落ちすることが多いように思います。)

 

次世代シーケンス解析(2次解析~詳細解析)用のPC

OS:Windows (Windows11 Proなど) (Mac, Linuxでも可)
CPU:core i7 以上
RAM:32GB以上
1stストレージ:500GB以上(推奨:1TB 以上)
2stストレージ:1TB 程度

  • シングルセル解析(visium空間トランスクリプトーム解析)のようなサイズの大きいデータの解析もmatrixデータをインプットに使用した解析であれば実行できます。
    (扱うファイルのサイズによりますが、RAM:16GB以上で実行できます。)
    (統合解析により同時に複数のデータを扱う場合には、必要に応じて)
  • 次世代シーケンス解析後の生データ.fastqファイルのサイズによりますが、バルクRNA-Seqデータのマッピング(Bowtieなども使用可)・遺伝子発現量の差分解析などを行う際には、下記のようなスペックで実行できると思われます。

 

次世代シーケンス解析(1次解析~詳細解析)用のPC(研究室への導入、初心者向け)

OS:Windows (Windows11 Proなど) (Mac, Linuxでも可)
CPU:core i7 以上
RAM:64GB以上
1stストレージ:1TB 以上
2stストレージ:1TB 以上(推奨:2TB前後)

  • 次世代シーケンス解析後の生データ(.fastq)ファイルのマッピング等も実施可能なPCが必要な場合。
    取得したfastqファイルのサイズによりますが、バルクRNA-Seqデータのマッピング(STARなども使用可)・遺伝子発現量の差分解析などを行う際には、下記のようなスペックで実行できると思われます。
  • シングルセル解析(visium空間トランスクリプトーム解析)のようなサイズの大きいデータの統合解析もmatrixデータをインプットに使用した解析であれば実行できます。
    (統合解析をしない場合は、扱うファイルのサイズによりますが、RAM:16GB以上で実行できます。)
  • このスペックですと、メタゲノム解析も実行できると思いますが、処理に数日程度時間が掛かる場合があります。
  • より大きいサイズのファイルを扱う場合には、解析用サーバー(Linux サーバー)の導入、若しくはスパコンの利用をご検討ください。

 

 ご不明点や具体的な選定のご相談につきましては、下記までご相談ください。