Python 与数据科学实验(Exp7)

实验7 蛋白质功能预测实验

1实验数据

    (1) 训练集

该训练数据集包含1616条蛋白质序列,存放于文件“ProSeqs_Train.txt”。文件中每一行若以空格隔开,内容分别是序列ID、类标号以及蛋白质的氨基酸序列。截取文件中第808和809行内容,如下图所示:

2L8EA 1 GTRGVDSPSAELDKKANLLKCEYCGKYAPAEQFRGSKRFCSMTCAKRYN

6NH9A 0 GRVRLVQFQKNTDEPMGITLKMNELNHCIVARIMHGGMIHRQGTLHVGDEIREINGISVANQTVEQLQKMLREMRGSITFKIVPSY

其中“2L8EA”为序列ID,1表示该蛋白质具有某种生物功能(反之,0表示蛋白质不具有这种生物功能),而“GTRGVDSPSAELDKKANLLKCEYCGKYAPAEQFRGSKRFCSMTCAKRYN”为蛋白质2L

猜你喜欢

转载自blog.csdn.net/qq_51314244/article/details/130349869