HHsuite覚書 - ゴミのやま

仕事でホモロジーモデリングをする必要が出てきた。それにはhhsuiteなるものが必要らしい。よくわからないので入力／出力および特性を理解する。アルゴの詳細には深入りしない。
同じようなソフトウェアは他にも有るはずなので, それらのソフトウェアとの違いについても後で調べる。
とりあえず先に手を動かしてみる

この記事は開発元のサイトからほぼ引用したものとなる。hhsuiteはミュンヘン大のグループが開発している。余談だが欧州はウェットの実験に関する規制がきついのでバイオインフォが盛んと聞いた（デマかもしれない）。

あとは日本語の文献をとりあえずスキミングして外観を掴んだ。ありがてえ

HHpredは隠れマルコフモデル(HMMs)によるシークエンスサーチで, ホモロジーモデリングによく使われる。入力のタンパク質の配列と類似度が高い配列を持つタンパク質を返すCASPでも大人気。HHpredはホモロジーモデリングによる構造予測のサーバー部門で一番らしい（何がかは不明）
PSI-BLASTより精度が良くて早い。

HH-suiteは様々なプログラムから成るがHHsearchとHHblitsが特に大事らしい。profile hidden Markov models(HMMs)を使う。(profileというのは業界用語で, シークエンスアラインメント後の配列を並べてスコア付したものらしい）
（あとの詳細な手法はまったくわからん。わかってきたら追記する）

色々有るが先例にならってpdb70とuniclustをダウンロードした。ダウンロードは非常に遅い。私はリモートサーバにsshで接続しているため, 自動切断されても良いようにscreenを立ち上げてからlftpでダウンロードした。
それぞれのデータベースの特色はわかったら追記する

HHsuiteは頻繁にデータベースにアクセスするため, ファイルアクセスがボトルネックとなるケースが多い。主に以下の対策推奨されているようだ。私の使っているPCはRAMが128GBあるため, RAMに置く方法を取ろうかと思う。

詳細は開発元のページを参照。以下には大まかなステップだけ書く

調べたいタンパク質のorthologが十分研究されておらずBLAST, FASTA, or PSI-BLASTといった従来の手法が上手く機能しない場合, HHsuiteはより遠縁のタンパク質同士の関係性を推測できる

HH-suiteは20%以下のsequence identityでも関係性を見いだせる。逆に言えばこれはhomologusの判定に適切ではない
最も良いのはprobabilityを使うこと（算出方法は知らない）。これが95%を超えるならhomolgyがあるのはほぼ確実といえる。(1)>50%のprobability, または(2)上位3hitが>30%のprobabilityを持つならhomologyを持つ可能性を検討したほうがいい
E-valueはqueryに関係ない情報のみから成るデータベースを用いた場合, E-valueが今回の計算結果より良くなる可能性を示す（よくわからない…が低いほうがいいと思われる）。値が1より低い場合は重要な結果と考えられる。probabilityとは異なり, E-valueはsecondary-structureを考慮していない。従って, probabiltyのほうがより正確といえる

hitはありそうな生物種のものか？類似した機能を持つか？などを検討する

使えるけど偽陽性率が上がる。小さなドメインに分割してサーチするのも手

Due to its fast prefilter, HHblits runs between 30 and 3000 times faster than HHsearch at the cost of only a few percent lower sensitivity.

とのことで, ケースにもよるが大量のシミュレーションをするときはHHblitsがいいかもしれない。逆に精度が重要な際はHHsearchを使おうと思う。