完整代码:https://github.com/9ayhub/nlp-search-engine
题目
拼写检查
参考 http://norvig.com/spell-correct.html 和 https://github.com/beyondacm/Autochecker4Chinese
倒排索引
参考 https://blog.csdn.net/xn4545945/article/details/8791484
文档排序
使用TF/IDF,参考课件
结果
-
运行程序,开始初始化(建立倒排索引,计算单个词的tf-idf),用时大概4~6秒
-
搜索【搜索】,耗时0.000000秒
-
输入错别字,将自动纠正,搜索【本科专业】,耗时0.000998秒
-
输入多个错别字,将自动纠正,搜索【杭州八大古都 人间天堂】,耗时0.000000秒
-
输入带多个错别字的长句子,将自动纠正,本次搜索耗时0.000997秒