从blast结果中取出每个query搜到的evalue最小的结果 - 代码天地

从blast结果中取出每个query搜到的evalue最小的结果

其他 2018-11-21 10:45:55 阅读次数: 0

在做多基因blast时，通常每个基因找到的匹配序列很多。这时习惯根据evalue来进行筛选，evalue较小的其相似性更高。下面提供两种方法解决。

一 linux命令

第11列为evalue值，第一列为基因名，先根据evalue升序排列，然后根据基因名去重。默认会保留最上面的一条记录，即evalue最小值。

二 pandas

最近在看pandas，所以拿来练手。思路也是先排序，后去重。

import pandas as pd

#将blast(-outfmt 6)输出结果保存到DataFrame
inp = pd.read_table('E:\python_test\1.blast')
inp

	query	subject	identity	align_length	mismatches	gap_opens	q_start	q_end	s_start	s_end	evalue	bit_score
0	gene1	SQ183094348	100	147	0	0	1	147	378	232	3	272
1	gene1	SQ183119192	100	66	0	0	1	66	82	147	2	122
2	gene1	SQ182140986	100	157	0	0	1	157	88	244	1	291
3	gene2	SQ183094348	100	147	0	0	1	147	378	232	3	272
4	gene2	SQ183119192	100	66	0	0	1	66	82	147	2	122
5	gene2	SQ182140986	100	157	0	0	1	157	88	244	1	291
6	gene3	SQ183094348	100	147	0	0	1	147	378	232	9	272
7	gene3	SQ183119192	100	66	0	0	1	66	82	147	8	122
8	gene3	SQ182140986	100	157	0	0	1	157	88	244	7	291

#取出每个query对应的evalue最低的subject
inp.sort_values(by=['query','evalue']).drop_duplicates(subset='query')

	query	subject	identity	align_length	mismatches	gap_opens	q_start	q_end	s_start	s_end	evalue	bit_score
2	gene1	SQ182140986	100	157	0	0	1	157	88	244	1	291
5	gene2	SQ182140986	100	157	0	0	1	157	88	244	1	291
8	gene3	SQ182140986	100	157	0	0	1	157	88	244	7	291

有可能出现gene相同，evalue相同的情况，我觉得可以在加上bit_socre和align_length进行排序，这两列为降序排列。

猜你喜欢

转载自blog.csdn.net/weixin_40099163/article/details/83215747

从blast结果中取出每个query搜到的evalue最小的结果

从数组中取出m个数相加的结果(组合)

在managedQuery()和getContentResolver().query()方法中实现结果去重

计算结果最小

结果...

oracle如何取出查询结果中的某一条数据

Postgrseql - query - 查询结果保存至文件

pt-query-digest结果解释

查询数据库中表的数据，通过循环用List集合动态写入，再用增强for循环动态取出时，结果每个元素都是一样的

jdbc的ResultSet结果集，数字类型的null取出后为0

从CRF测试结果中提取出连续的标注行

在多个数组中，从每个数组中抽取一个元素，构成新的数组所有组合结果

通过Function Score Query优化Elasticsearch搜索结果(综合排序)

Spring Data注解@Query 查询未返回任何结果

通过Function Score Query优化Elasticsearch搜索结果

MySql中取出每个分组中的前N条记录

从Mysql查询的结果，写入txt文件中，每个字段用|分隔，下一条数据要换行

C语言程序将字符串中每个字符与0或1进行异或运算并显示结果

srpingboot 对每个请求参数和响应结果进行日志打印

in查询,每个查询匹配的结果集只取前几条

mysql GROUP_CONCAT 查看每个分组的结果集

1000！结果中0的个数

java中json结果检查

js 中if(变量)的结果思考

mybatis中的结果映射resultMap

递归实现【从abcdefgh八个英文字母中任意取出五个不同的字母，列出所有结果】

用C++实现最小二乘法，最小区域法，最小包容圆拟合圆的算法和在Qt中的运行结果

统计一段文字中每个字符出现的次数，并输出结果（包含字符及其出现次数）保存在一个适合的集合中。

[转]mybatis如何直接执行传入的任意sql语句并按照顺序取出查询的结果集

mysql jdbc的ResultSet结果集，数字类型的null取出后为0

今日推荐

周排行

成为C++高手之宏与枚举

在CAD二次开发中使用进度条

Js插件ECharts，HighCharts学习网址整理

Celery提交任务出错(on windows.)

cephfs内核客户端性能追踪

thinkphp中PHPExcel用法

EntityFramework动态组合多排序字段

汇编语言（八）实验9 根据材料编程

安装ubuntu后必须做的事情（对我而言）

JS函数式编程

每日归档

更多

2024-10-22(0)

2024-10-21(0)

2024-10-20(0)

2024-10-19(0)

2024-10-18(0)

2024-10-17(0)

2024-10-16(0)

2024-10-15(0)

2024-10-14(0)

2024-10-13(0)