用bash脚本提取文本数据
我的数据文件如下所示,含有几十万个这样的单元:=======================
ZINC22760757
Detected 4 CPUs
Reading input ... done.
Setting up the scoring function ... done.
Analyzing the binding site ... done.
Using random seed: 180843744
Performing search ... done.
Refining results ... done.
mode | affinity | dist from best mode
| (kcal/mol) | rmsd l.b.| rmsd u.b.
-----+------------+----------+----------
1 -4.5 0.000 0.000
2 -4.4 2.471 6.750
3 -4.3 1.685 6.812
4 -4.3 3.693 7.234
5 -4.3 1.882 2.602
6 -4.2 3.348 7.418
7 -4.2 3.179 4.780
8 -4.2 5.332 7.767
Writing output ... done.
=======================
第一行为每个数据的名称,都以ZINC*开始,有时ZINC这一行会重复1-2次。我想通过一个脚本做以下工作:
1.先删去可能重复的ZINC行(如果不重复进入第二步)。
2.先提取ZINC*作为名称,写入文本,再提取下面数据中“1”后面的这个数字写入文本。两个数据以TAB键间隔。如:
ZINC22760757 -4.5
二者之间最好以TAB键隔开,将来方便导入excel中。
我的数据非常长,人工处理不可能完成,只能来这里求助热心战友帮忙编个程序。
[ 本帖最后由 syfnet 于 2009-8-29 12:02 编辑 ]