注册 登录
编程论坛 Python论坛

python 请教处理数据的问题。

liyibo0719 发布于 2019-09-11 12:15, 1502 次点击
只有本站会员才能查看附件,请 登录
只有本站会员才能查看附件,请 登录


大家好,附件是要处理的文件和我写的部分代码,在计算start_codon位置这里不会写了(在代码中有标明)。
具体start_codon的计算方法在另一张图片上。

原文件说明:
第4列和第5列的数字相当于一个小区间片段[x, y]  ,求start_codon的相对位置。
id是文件split后 id[11]

还请大神们有时间帮我看一看。感谢🙏!!
4 回复
#2
fall_bernana2019-09-12 16:00
回复 楼主 liyibo0719
你应该举个例子.没弄懂x1 ,y1 ,x2 ,y2,M ,N 代表啥意思.
#3
liyibo07192019-09-13 22:46
回复 楼主 liyibo0719
x,x1,x2....指的是第3列为exon时对应的第四列的数字
y,y1,y2,y3....指的是第3列为exon时对应的第5列的数字
m指的是第3列为start_codon时对应的第四列的数字
n指的是第3列为start_codon时对应的第5列的数字
#4
fall_bernana2019-09-16 09:55
回复 3楼 liyibo0719
程序代码:

transcript 958246 959256 - ENST00000469563.1 retained_intron
exon 959215 959256 - ENST00000469563.1 retained_intron
exon 958246 959081 - ENST00000469563.1 retained_intron
gene 960587 965715 + protein_coding OTTHUMG00000040721.6
transcript 960587 965715 + ENST00000338591.7 protein_coding
exon 960587 960800 + ENST00000338591.7 protein_coding
CDS 960694 960800 + ENST00000338591.7 protein_coding
start_codon 960694 960696 + ENST00000338591.7 protein_coding
exon 961293 961552 + ENST00000338591.7 protein_coding
CDS 961293 961552 + ENST00000338591.7 protein_coding
exon 961629 961750 + ENST00000338591.7 protein_coding
CDS 961629 961750 + ENST00000338591.7 protein_coding
exon 961826 962047 + ENST00000338591.7 protein_coding
CDS 961826 962047 + ENST00000338591.7 protein_coding
exon 962355 962471 + ENST00000338591.7 protein_coding
CDS 962355 962471 + ENST00000338591.7 protein_coding
exon 962704 962917 + ENST00000338591.7 protein_coding
CDS 962704 962917 + ENST00000338591.7 protein_coding
exon 963109 963253 + ENST00000338591.7 protein_coding
CDS 963109 963253 + ENST00000338591.7 protein_coding
exon 963337 963504 + ENST00000338591.7 protein_coding
CDS 963337 963504 + ENST00000338591.7 protein_coding
exon 963920 964008 + ENST00000338591.7 protein_coding
CDS 963920 964008 + ENST00000338591.7 protein_coding
exon 964107 964180 + ENST00000338591.7 protein_coding
CDS 964107 964180 + ENST00000338591.7 protein_coding
exon 964349 964530 + ENST00000338591.7 protein_coding
CDS 964349 964530 + ENST00000338591.7 protein_coding
exon 964963 965715 + ENST00000338591.7 protein_coding
CDS 964963 965188 + ENST00000338591.7 protein_coding
stop_codon 965189 965191 + ENST00000338591.7 protein_coding
UTR 960587 960693 + ENST00000338591.7 protein_coding
UTR 965189 965715 + ENST00000338591.7 protein_coding
transcript 998962 1000172 - ENST00000428771.6 protein_coding
exon 999692 1000172 - ENST00000428771.6 protein_coding
CDS 999692 999973 - ENST00000428771.6 protein_coding
start_codon 999971 999973 - ENST00000428771.6 protein_coding
exon 999526 999613 - ENST00000428771.6 protein_coding
CDS 999526 999613 - ENST00000428771.6 protein_coding
exon 998962 999432 - ENST00000428771.6 protein_coding
CDS 999062 999432 - ENST00000428771.6 protein_coding
stop_codon 999059 999061 - ENST00000428771.6 protein_coding
UTR 999974 1000172 - ENST00000428771.6 protein_coding
UTR 998962 999061 - ENST00000428771.6 protein_coding

这是解析你file0.14.txt文件后的数据
对于ID=ENST00000469563.1的没有start_codon
ENST00000428771.6有很多个exon 哪些是x,x1,x2,y,y1,y2,......

其实如果你能自己分析出自己想要的东西.其他的就简单了.

[此贴子已经被作者于2019-9-16 09:57编辑过]

#5
liyibo07192019-09-17 02:55
上述问题已解决。感谢!

另外一个小问题请教一下,
只有本站会员才能查看附件,请 登录

附件是我写的一个代码,第一个文件只有一列,第二个文件有很多列,我想打印出所有文件2的第一列在文件一种找不到的行,我写的这个可以运行,但是由于文件非常非常的大,太慢太慢了

求大神指点。
1