求c#数据抽取 编程思路
我要编一个从txt格式词典中按照要求抽取部分语句另存为一个txt文件的程序。没有思路啊···要求是 有txt格式的英汉词典的词典X。
txt词典的格式是;英文词条,词类,汉语译文,英汉汉对照短语例句(解释可能有多个,即多义词)
输出结果:(1)英汉词典数据库(txt格式)(英语,词类,汉语);
(2)词典例句对应英汉双语语料库(txt格式);(英文句子,汉语译文句子)
程序功能:
可以任意打开一个原始文件,抽取相应的数据追加到相应的库中;
ps:打开txt文件和另存文件这些简单,主要是抽取相应数据这一块。
这些txt文件是unicode的。 我目前想法是利用语言的unicode编码按照一定的条件抽取。但不知接下里该怎么弄。
求各位大侠相助,小女子感激不尽啊···