ゴミのやま

完全自分向け雑記

HHsuite覚書

目的

  • 仕事でホモロジーモデリングをする必要が出てきた。それにはhhsuiteなるものが必要らしい。よくわからないので入力/出力および特性を理解する。アルゴの詳細には深入りしない。

  • 同じようなソフトウェアは他にも有るはずなので, それらのソフトウェアとの違いについても後で調べる。

  • とりあえず先に手を動かしてみる 

参考

この記事は開発元のサイトからほぼ引用したものとなる。hhsuiteはミュンヘン大のグループが開発している。余談だが欧州はウェットの実験に関する規制がきついのでバイオインフォが盛んと聞いた(デマかもしれない)。

github.com

 

あとは日本語の文献をとりあえずスキミングして外観を掴んだ。ありがてえ 

qiita.com

要約

導入

インストール

  • Anacondaで専用の環境を作ってインストールした。gitの方針に従うだけなので難しくはない

    github.com

 データベース

  • 色々有るが先例にならってpdb70とuniclustをダウンロードした。ダウンロードは非常に遅い。私はリモートサーバにsshで接続しているため, 自動切断されても良いようにscreenを立ち上げてからlftpでダウンロードした。

  • それぞれのデータベースの特色はわかったら追記する 

速度向上のために

  • HHsuiteは頻繁にデータベースにアクセスするため, ファイルアクセスがボトルネックとなるケースが多い。主に以下の対策推奨されているようだ。私の使っているPCはRAMが128GBあるため, RAMに置く方法を取ろうかと思う。
  1. RAMにデータベースを常に配置しておく。
  2. SSDにデータベースを置く

例:ホモロジーモデリング

詳細は開発元のページを参照。以下には大まかなステップだけ書く

  1. hhblitsかhhsearchでUniclust30からクエリと類似度の高いタンパク質"配列"を探索

  2. 1の結果を元にしてPDB70データベースから類似度の高いタンパク質"構造"を探索

  3. 2の検索結果はE-value(重要度を示すスコアらしい。詳細は調べていない)順にソートされている。一番上の構造をテンプレートとして用いる。

  4. hhmakemodel.pyを使って, 3で見出したテンプレートをMODELLERが読める形式(.pir)にコンバートする

  5. MODELLERでホモロジーモデリングする(これ以降はMODELLERのドキュメントを参照する必要あり)

よくある質問集(興味あるトピックだけ読んだ)

hh-suiteはいつ使ったらいいの?

  • 調べたいタンパク質のorthologが十分研究されておらずBLAST, FASTA, or PSI-BLASTといった従来の手法が上手く機能しない場合, HHsuiteはより遠縁のタンパク質同士の関係性を推測できる

HomologusとAnalogusなProteinの違い

  • Analogus: Convergent evolutionのように一見似た構造を持つが進化的に関係がない場合(例:コウモリと鳥)
  • Homologus: 似た構造を持ちかつ進化的に関係がある場合

Homologusの程度をどうやって判定するのか

probabilityかE-valueを見る:
  • HH-suiteは20%以下のsequence identityでも関係性を見いだせる。逆に言えばこれはhomologusの判定に適切ではない
  • 最も良いのはprobabilityを使うこと(算出方法は知らない)。これが95%を超えるならhomolgyがあるのはほぼ確実といえる。(1)>50%のprobability, または(2)上位3hitが>30%のprobabilityを持つならhomologyを持つ可能性を検討したほうがいい
  • E-valueはqueryに関係ない情報のみから成るデータベースを用いた場合, E-valueが今回の計算結果より良くなる可能性を示す(よくわからない…が低いほうがいいと思われる)。値が1より低い場合は重要な結果と考えられる。probabilityとは異なり, E-valueはsecondary-structureを考慮していない。従って, probabiltyのほうがより正確といえる
hitの妥当性を確認する

hitはありそうな生物種のものか?類似した機能を持つか?などを検討する

secondary-structureは似ているか?
top hitsの関係性を調べる
motifの類似性を調べる
よりカバー範囲の広いデータベースを用いる
パラメータを変えてシミュレーションする
実験検討する(究極)

ドメインが複数あるタンパク質にも使える?

使えるけど偽陽性率が上がる。小さなドメインに分割してサーチするのも手

HHblitsとHHsearchは何が違うのか

Due to its fast prefilter, HHblits runs between 30 and 3000 times faster than HHsearch at the cost of only a few percent lower sensitivity.

とのことで, ケースにもよるが大量のシミュレーションをするときはHHblitsがいいかもしれない。逆に精度が重要な際はHHsearchを使おうと思う。