用bash脚本提取文本数据 - Linux教室

问题点数：0 回复次数：0

用bash脚本提取文本数据

我的数据文件如下所示，含有几十万个这样的单元：
=======================
ZINC22760757
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: 180843744
Performing search ... done.
Refining results ... done.
mode |   affinity | dist from best mode
     | (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
   1         -4.5      0.000      0.000
   2         -4.4      2.471      6.750
   3         -4.3      1.685      6.812
   4         -4.3      3.693      7.234
   5         -4.3      1.882      2.602
   6         -4.2      3.348      7.418
   7         -4.2      3.179      4.780
   8         -4.2      5.332      7.767
Writing output ... done.
=======================
第一行为每个数据的名称，都以ZINC*开始，有时ZINC这一行会重复1-2次。我想通过一个脚本做以下工作：
1.先删去可能重复的ZINC行（如果不重复进入第二步）。
2.先提取ZINC*作为名称，写入文本，再提取下面数据中“1”后面的这个数字写入文本。两个数据以TAB键间隔。如：
ZINC22760757               -4.5
二者之间最好以TAB键隔开，将来方便导入excel中。
我的数据非常长，人工处理不可能完成，只能来这里求助热心战友帮忙编个程序。

[ 本帖最后由 syfnet 于 2009-8-29 12:02 编辑 ]

搜索更多相关主题的帖子: bash　脚本　文本　数据