注册 登录
编程论坛 Linux教室

用bash脚本提取文本数据

syfnet 发布于 2009-08-29 11:48, 1788 次点击
我的数据文件如下所示,含有几十万个这样的单元:
=======================
ZINC22760757
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: 180843744
Performing search ... done.
Refining results ... done.
mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.4      2.471      6.750
   3         -4.3      1.685      6.812
   4         -4.3      3.693      7.234
   5         -4.3      1.882      2.602
   6         -4.2      3.348      7.418
   7         -4.2      3.179      4.780
   8         -4.2      5.332      7.767
Writing output ... done.
=======================
第一行为每个数据的名称,都以ZINC*开始,有时ZINC这一行会重复1-2次。我想通过一个脚本做以下工作:
1.先删去可能重复的ZINC行(如果不重复进入第二步)。
2.先提取ZINC*作为名称,写入文本,再提取下面数据中“1”后面的这个数字写入文本。两个数据以TAB键间隔。如:
ZINC22760757               -4.5
二者之间最好以TAB键隔开,将来方便导入excel中。
我的数据非常长,人工处理不可能完成,只能来这里求助热心战友帮忙编个程序。


[ 本帖最后由 syfnet 于 2009-8-29 12:02 编辑 ]
0 回复
1