更新時間 2011/12/17
PSIPRED簡介
PSIPRED是一個蛋白質二級結構預測的軟體,使用neural networks的方法來建立預測model。大致上的原理將要預測的蛋白質,是先透過PSI-BLAST工具找出與此相關的蛋白質,藉此得到演化上資訊,如amino acid的改變、insertion或是deletion等等。跟據此結果輸入到neural network,來預測可能的二級預測結構。(詳細的內容,請看Jones DT. (1999) Protein secondary structure prediction based on position-specific scoring matrices. J. Mol. Biol. 292: 195-202.這篇paper)
PSIPRED版本下載
目前PSIPRED除了提供的Web service之外,也可以下載到自己的電腦裡,但只有Linux版本喔(目前版本3.2)(2010.08.26).
Web service : http://bioinf.cs.ucl.ac.uk/psipred/
Download : http://bioinfadmin.cs.ucl.ac.uk/downloads/psipred/ (2011.09.01更新)
若無你的電腦無Linux系統, 可以考慮兩種方式
1. 使用 cygwin
2. 使用 Virtual machine 來安裝 Linux 系統
(待補)
PSIPRED安裝
一、工具本身主要是在linux上開發的,用tar解壓縮
>tar -xzvf psipredxxx.tar.gz
解壓縮後會有在資料夾中的bin裡會有 runpsipred 和 runpsipred_single 兩種模式可以使用
PS: runpsipred_single 顧名思義 single 指的是並不會執行 PSI-BLAST 的動作,認定你要預測的 protein sequences 是找不到同源的 protein,也因如此執行上也比 runpsipred 程式快上了許多。但這種情形不大發生,而且 PSIPRED 也由於多做了 PSI-BLAST 的動作才使得預測率變得更好。所以在使用上是用runpsired 這隻程式來預測 protein secondary structure。
二、另外還必須要下載PSI-BLAST和蛋白質序列的database。在這裡,我這裡挑選的是nr database。nr 指的是 non-redundant,也就是沒有多餘重複的protein。而nr是如何挑出來的呢?這又是另一個故事了...就不在此敘述了。
這邊要注一下,PSIPRED本身是設計成讀nr database除了nr database 設成其他的dabase都是無法work的(2009.02.01)以上刪除為初入此領域無知所寫的,只是要protein的database,就可以正常運作(茶~) (2010.06.27)
BLAST Download : (BLAST內含PSI-BLAST)
BLAST : ftp://ftp.ncbi.nih.gov/blast/executables/release
BLAST隨著時間會不段的改版,下載時請參考釋出時間以及適合的版本。
database : ftp://ftp.ncbi.nih.gov/blast/db/
database檔名為nr.XX.tar.gz,不只有一個,隨時間更新。以上都不需要再make install,只要解壓縮之後就可直接使用了。
三、都下載好所需之後,在執行前要先行設定,用 vi 或 vim 工具打開 runpsipred
在set dbname的部份,要設定成你database所放置的路徑
ex: 放在 /home/febain/db/裡的話,就將set dbname = /home/febain/db/nr 。這邊要注意,如果沒有少打了nr 的話,可是會發生錯誤的喔~
而set ncbidir的部份,指的就是PSI-BLAST程式所放置的地方。
ex: PSI-BLAST放在 /home/febain/BLAST 下,則set ncbidir = /home/febain/BLAST/bin , 修改好並儲存。
四、回到PSIPRED的src的目錄底下,執行make,重新編譯。之後再將所產生的執行檔,copy到bin的目錄底下。
>make
>mv chkparse pfilt psipass2 seq2mtx psipred ../bin
五、將你所用預測的protein sequence分別各存成一個檔案,使用下面指令(注意:一次只能預測一個蛋白質)
>./runpsipred your_file_name
依經電腦的速度不同,等待的時間也就不同。完成之後,會產生出 your_file_name.ss, your_file_name.ss2, your_file_name.horiz 三個檔案。
在horiz檔案,長的如下:
一行以60 amino acids為長度, conf是說對於該預測的信心度多高, 數值從0~9, 越大表示越有信心
而Pred就是所預測出來了的結果, C代表Coil, H代表 Helix, E代表的Strand。AA為amino acid sequence
常見問題
如果遇到了這類的錯誤訊息:
[makemat] FATAL ERROR: Unable to open file psitmp21305007f0100.chk
最有可能的情況是路徑的問題,要檢查 set dbname 及set ncbidir 有無設錯。
而horiz檔裡若無內容,則是要檢查 set execdir 和 set datadir 的路徑。(2009.02.09)
若是出現了Exec format error. Binary file not executable. 的訊息
就需要到src的目錄底下,執行make,重新編譯。之後再將src底下所產生的執行檔,copy到bin的目錄底下, 即可解決。(2010.12.29)
PSIPRED工具使用上,大致如此。
keyword : PSIPRED, PSIPRED安裝及使用方法, 蛋白質二級結構預測工具, Unable to open file psitmpxxxx.chk