搜索引擎近十年来在技术上有什么发展?
从外行来看,有了关键字检索和pagerank之后,搜索引擎企业和研究者主要做什么?检索日志分析、同义词、个性化、NLP、ranking、语义网、叙词表、信息分类体系……,哪些想法对改进搜索质量起了作用?搜索的本质是满足用户通过query表达的需求,分词、倒排索引、pagerank等都只是方法,不是目的,论发展可以简单分为三个阶段:
1. 第一个阶段,倒排索引解决效率问题,文本模型解决基本的相关性,使搜索引擎变得可用、可扩展,代表比如Infoseek
2. 第二个阶段,超链模型(比如pagerank)解决权威性问题,使搜索质量提升一个档次,代表比如Google
3. 第三个阶段,一方面通过用户行为分析(将)使得搜索结果再次提升一个档次(简单的比如点击模型,复杂的比如个性化),这些在垂直搜索上表现的会更加明显;另一方面,淡化分词与文本匹配,通过query改写召回更多好结果,通过整合搜索\应用平台\结构化信息整合等方式使得结果变得更加直接有效