实验7 蛋白质功能预测实验
1. 实验数据
(1) 训练集
该训练数据集包含1616条蛋白质序列,存放于文件“ProSeqs_Train.txt”。文件中每一行若以空格隔开,内容分别是序列ID、类标号以及蛋白质的氨基酸序列。截取文件中第808和809行内容,如下图所示:
2L8EA 1 GTRGVDSPSAELDKKANLLKCEYCGKYAPAEQFRGSKRFCSMTCAKRYN
6NH9A 0 GRVRLVQFQKNTDEPMGITLKMNELNHCIVARIMHGGMIHRQGTLHVGDEIREINGISVANQTVEQLQKMLREMRGSITFKIVPSY
其中“2L8EA”为序列ID,1表示该蛋白质具有某种生物功能(反之,0表示蛋白质不具有这种生物功能),而“GTRGVDSPSAELDKKANLLKCEYCGKYAPAEQFRGSKRFCSMTCAKRYN”为蛋白质2L