蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 :...

12
專專專專 蛋蛋蛋蛋蛋蛋蛋蛋蛋蛋蛋 971506 蛋蛋蛋 971502 蛋蛋蛋 971534 蛋蛋蛋 蛋蛋蛋蛋 : 蛋蛋蛋
  • date post

    22-Dec-2015
  • Category

    Documents

  • view

    245
  • download

    0

Transcript of 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 :...

Page 1: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

專題報告蛋白質功能預測開發環境

971506 謝長鴻971502 卓彥甫971534 黃希鈞

指導教授 :歐昱言

Page 2: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

專題目的

開發一個程式環境幫助生物學家可以利用簡單的序列資料得到此蛋白質的基本功能標註

Page 3: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

專題架構資料取得

序列剖析

屬性選取

各個分類器結果分析

Query (Transport):existence:"evidence at protein

level" AND annotation:(type:location membrane

confidence:experimental) AND reviewed:yes AND

(keyword:transport or go:transport)

1. AAC(Amino Acid Composition)

2. DPC(Dipepdite Composition)

3. PSSM(Position Specific Scoring Matrix)

Page 4: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

機器學習簡介

屬性 1: 顏色屬性 2: 重量屬性 3: 形狀

類別 1: 香蕉類別 2: 蘋果類別 3: 西瓜

香蕉顏色 :黃色

重量 :300克形狀 :長條狀

蘋果顏色 :紅色

重量 :150克形狀 :圓形

西瓜顏色 : 綠色

重量 :900 克形狀 : 圓形

Page 5: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

機器學習簡介

?顏色 :紅

色重量 :?

形狀 :圓形

?顏色 :?重量 :?

形狀 :長條

?顏色 :?

重量 :840克

形狀 :圓形

Page 6: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

一 . 資料取得

Page 7: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

Query:existence:"evidence at protein level" AND

annotation:(type:location membrane confidence:experimental) AND

reviewed:yes AND (keyword:transport or go:transport)

< 尋找 Transport 的 Qiery>

Page 8: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

二 . 序列剖析1. AAC: 計算 20 種胺基酸在每條 protein 上各自

出現的比例當成屬性

2. DPC: 計算 20 種胺基酸兩兩配對在 protein 上各自出現的比例當成屬性

3. PSSM: 統計 20 種胺基酸能被其他胺基酸所取代的可能性做為一種屬性

Page 9: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

三 . 屬性選取加入 AAIndex 內的屬性,利用 Fscore 公式算出來

值較高的屬性增加到 AAC 、 DPC 或 PSSMEX: 屬性 Fscore 值AAIndex1 0.52AAIndex2 0.01 AAIndex3 0.45 AAIndex4 0.03 將 AAINDEX1 加入選取的屬性中

Page 10: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

四 . 各分類器分析原有檔案執行後所產生的檔案產生每條 Protein 的 sequence file序列分析 AAC 與 DPC利用產生出來的屬性 AAC 與 DPC 來跑 weka

Page 11: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

四 . 各分類器分析

以下結果由其他組利用我們所開發得工具做成果

Page 12: 蛋白質功能預測開發環境 971506 謝長鴻 971502 卓彥甫 971534 黃希鈞 指導教授 : 歐昱言.

報告結束 謝謝大家