ゴミのやま

完全自分向け雑記

Uniprotから任意のFASTAをとってくる

やりたいこと

Uniprotから任意のアミノ酸配列をFASTA形式でPythonなどのプログラミング言語を使うことにより自動取得したい。

参考

以下のサイトでまずUniprotとは何かを理解した。アミノ酸配列とその機能情報を掲載しているらしい。

magattaca.hatenablog.com 

やりかた

任意のデータにはアドレスを改変することによりアクセスできる。詳細はUniprotを参照。

Programmatic access - Retrieving entries via queries

 

今回は

  • マウス(分類番号10090)の
  • reviewedの状態にある(Uniprotではcuratorが結果をチェックしたものをreviewedと呼ぶらしい)
  • hsp90ab1という名前の遺伝子に
  • fasta形式で

アクセスしたい。この場合の書式は以下のようになる。

https://www.uniprot.org/uniprot/?query=reviewed:yes+AND+organism:10090+AND+gene:hsp90ab1&format=fasta 

 前述のUniprotでは遺伝子名を指定する際に"genes:"を使えと言っているが, "gene:"を使わないと参照できなかった。