| 网站首页 | 业界新闻 | 小组 | 交易 | 人才 | 下载频道 | 博客 | 代码贴 | 在线编程 | 编程论坛
Reworld,下班在家制作游戏,1500万奖金等你拿以码会友 以友辅仁
共有 192 人关注过本帖
标题:python 请教处理数据的问题。
只看楼主 加入收藏
liyibo0719
Rank: 1
等 级:新手上路
帖 子:22
专家分:0
注 册:2019-8-6
结帖率:66.67%
  已结贴   问题点数:20  回复次数:4   
python 请教处理数据的问题。


大家好,附件是要处理的文件和我写的部分代码,在计算start_codon位置这里不会写了(在代码中有标明)。
具体start_codon的计算方法在另一张图片上。

原文件说明:
第4列和第5列的数字相当于一个小区间片段[x, y]  ,求start_codon的相对位置。
id是文件split后 id[11]

还请大神们有时间帮我看一看。感谢🙏!!
附件: 您没有浏览附件的权限,请 登录注册
搜索更多相关主题的帖子: 处理 python 数据 文件 位置 
2019-09-11 12:15
fall_bernana
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:3
帖 子:27
专家分:178
注 册:2019-8-16
  得分:20 
回复 楼主 liyibo0719
你应该举个例子.没弄懂x1 ,y1 ,x2 ,y2,M ,N 代表啥意思.
2019-09-12 16:00
liyibo0719
Rank: 1
等 级:新手上路
帖 子:22
专家分:0
注 册:2019-8-6
  得分:0 
回复 楼主 liyibo0719
x,x1,x2....指的是第3列为exon时对应的第四列的数字
y,y1,y2,y3....指的是第3列为exon时对应的第5列的数字
m指的是第3列为start_codon时对应的第四列的数字
n指的是第3列为start_codon时对应的第5列的数字
2019-09-13 22:46
fall_bernana
Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20
等 级:版主
威 望:3
帖 子:27
专家分:178
注 册:2019-8-16
  得分:0 
回复 3楼 liyibo0719
程序代码:
transcript 958246 959256 - ENST00000469563.1 retained_intron
exon 959215 959256 - ENST00000469563.1 retained_intron
exon 958246 959081 - ENST00000469563.1 retained_intron
gene 960587 965715 + protein_coding OTTHUMG00000040721.6
transcript 960587 965715 + ENST00000338591.7 protein_coding
exon 960587 960800 + ENST00000338591.7 protein_coding
CDS 960694 960800 + ENST00000338591.7 protein_coding
start_codon 960694 960696 + ENST00000338591.7 protein_coding
exon 961293 961552 + ENST00000338591.7 protein_coding
CDS 961293 961552 + ENST00000338591.7 protein_coding
exon 961629 961750 + ENST00000338591.7 protein_coding
CDS 961629 961750 + ENST00000338591.7 protein_coding
exon 961826 962047 + ENST00000338591.7 protein_coding
CDS 961826 962047 + ENST00000338591.7 protein_coding
exon 962355 962471 + ENST00000338591.7 protein_coding
CDS 962355 962471 + ENST00000338591.7 protein_coding
exon 962704 962917 + ENST00000338591.7 protein_coding
CDS 962704 962917 + ENST00000338591.7 protein_coding
exon 963109 963253 + ENST00000338591.7 protein_coding
CDS 963109 963253 + ENST00000338591.7 protein_coding
exon 963337 963504 + ENST00000338591.7 protein_coding
CDS 963337 963504 + ENST00000338591.7 protein_coding
exon 963920 964008 + ENST00000338591.7 protein_coding
CDS 963920 964008 + ENST00000338591.7 protein_coding
exon 964107 964180 + ENST00000338591.7 protein_coding
CDS 964107 964180 + ENST00000338591.7 protein_coding
exon 964349 964530 + ENST00000338591.7 protein_coding
CDS 964349 964530 + ENST00000338591.7 protein_coding
exon 964963 965715 + ENST00000338591.7 protein_coding
CDS 964963 965188 + ENST00000338591.7 protein_coding
stop_codon 965189 965191 + ENST00000338591.7 protein_coding
UTR 960587 960693 + ENST00000338591.7 protein_coding
UTR 965189 965715 + ENST00000338591.7 protein_coding
transcript 998962 1000172 - ENST00000428771.6 protein_coding
exon 999692 1000172 - ENST00000428771.6 protein_coding
CDS 999692 999973 - ENST00000428771.6 protein_coding
start_codon 999971 999973 - ENST00000428771.6 protein_coding
exon 999526 999613 - ENST00000428771.6 protein_coding
CDS 999526 999613 - ENST00000428771.6 protein_coding
exon 998962 999432 - ENST00000428771.6 protein_coding
CDS 999062 999432 - ENST00000428771.6 protein_coding
stop_codon 999059 999061 - ENST00000428771.6 protein_coding
UTR 999974 1000172 - ENST00000428771.6 protein_coding
UTR 998962 999061 - ENST00000428771.6 protein_coding

这是解析你file0.14.txt文件后的数据
对于ID=ENST00000469563.1的没有start_codon
ENST00000428771.6有很多个exon 哪些是x,x1,x2,y,y1,y2,......

其实如果你能自己分析出自己想要的东西.其他的就简单了.

[此贴子已经被作者于2019-9-16 09:57编辑过]

2019-09-16 09:55
liyibo0719
Rank: 1
等 级:新手上路
帖 子:22
专家分:0
注 册:2019-8-6
  得分:0 
上述问题已解决。感谢!

另外一个小问题请教一下,
附件是我写的一个代码,第一个文件只有一列,第二个文件有很多列,我想打印出所有文件2的第一列在文件一种找不到的行,我写的这个可以运行,但是由于文件非常非常的大,太慢太慢了

求大神指点。
附件: 您没有浏览附件的权限,请 登录注册
2019-09-17 02:55
快速回复:python 请教处理数据的问题。
数据加载中...
 
   





关于我们 | 广告合作 | 编程中国 | 清除Cookies | TOP | 手机版

编程中国 版权所有,并保留所有权利。
Powered by Discuz, Processed in 0.031531 second(s), 9 queries.
Copyright©2004-2019, BCCN.NET, All Rights Reserved