찾다

 >  Q&A  >  본문

python - 去除重复行并保留得分最高的行

第一列(scaffold这一列)相同,则根据第AS列(AS:i:xx)数字 xx的大小,保留数字最大的行。如果数字大小相同则都保留。

举例,
输入文件

scaffold_010679_1AL.2    16    chr1A    429400034    119    3272M    *    GACACAAGAGACTCTTTG    *    AS:i:3268    XS:i:2147    XF:i:0    XE:i:29    NM:i:1
scaffold_010679_1AL.2    16    chr1A    429400034    119    3272M    *    GACACAAGAGACTCTTTG    *    AS:i:3268    XS:i:2147    XF:i:0    XE:i:29    NM:i:1 
scaffold_010679_1AL.2    16    chr1A    429400034    119    3272M    *    GACACAAGAGACTCTTTG    *    AS:i:1268    XS:i:2147    XF:i:0    XE:i:29    NM:i:1
scaffold_010679_1AL.3    16    chr1A    429397743    19    599S1730M1I279M    *    0    0    TGCCGAGGTTTTTGA    *    AS:i:1998    XS:i:1877    XF:i:3    XE:i:20    NM:i:2    XN:i:1
scaffold_010679_1AL.3    16    chr1A    429397743    19    599S1730M1I279M    *    0    0    TGCCGAGGTTTTTGA    *    AS:i:1098    XS:i:1877    XF:i:3    XE:i:20    NM:i:2    XN:i:1

结果文件

scaffold_010679_1AL.2    16    chr1A    429400034    119    3272M    *    GACACAAGAGACTCTTTG    *    AS:i:3268    XS:i:2147    XF:i:0    XE:i:29    NM:i:1
scaffold_010679_1AL.2    16    chr1A    429400034    119    3272M    *    GACACAAGAGACTCTTTG    *    AS:i:3268    XS:i:2147    XF:i:0    XE:i:29    NM:i:1 
scaffold_010679_1AL.3    16    chr1A    429397743    19    599S1730M1I279M    *    0    0    TGCCGAGGTTTTTGA    *    AS:i:1998    XS:i:1877    XF:i:3    XE:i:20    NM:i:2    XN:i:1
迷茫迷茫2835일 전742

모든 응답(3)나는 대답할 것이다

  • 迷茫

    迷茫2017-04-18 10:36:19

    으아악

    회신하다
    0
  • ringa_lee

    ringa_lee2017-04-18 10:36:19

    으아악

    회신하다
    0
  • 伊谢尔伦

    伊谢尔伦2017-04-18 10:36:19

    으아아아

    아이디어 파일을 별표*에 따라 3개의 열로 나누고, 세 번째 열을 기준으로 내림차순으로 정렬하고, 첫 번째 행을 꺼내고, AS:i: 최대 개수를 빼고, grep으로 검색하여 결과를 얻습니다. .

    문제를 잘 안읽고 실수했어요~~결과가 틀렸어요

    회신하다
    0
  • 취소회신하다