服务咨询电话
发表于:2019-05-31
作者:科翔信息
浏览 125 次
专利申请号:
CN201210401317.7
专利类型:
发明
IPC 分类号:
G06F17/30
应用领域:
用于搜索引擎。
现有技术缺点:
现有搜索引擎技术文档必须带有 URL 信息,限制了该方法的使用范围,基于聚类的方法由于复杂度较高,压缩比率也不如基于 TSP 的方法。
技术优势:
1、通过对词项进行排序,挖掘文档之间的相似度关系,大大降低了算法的时间复杂度和空间复杂度,在运行过程中仅占用少量内存空间;
2、解决了现有技术中存在的算法复杂度较高的问题以及对数据集限制的问题。
摘要:
本发明公开了用于对倒排索引进行压缩的文档序号重排方法及其系统,该方法包括:
步骤 1,对已经分配好文档序号的文档进行词语划分得到词项,对所述词项按照其在所述文档中的出现频率进行排列,得到第一顺序的词项;
步骤 2,利用所述第一顺序的词项对所述文档进行重新排序,获得所述文档的最终排序;
步骤 3,新的文档序号按照所述文档的最终排序进行重新分配。本发明在运行过程中通过对词项进行排序,挖掘文档之间的相似度关系,仅占用少量内存空间,大大降低了算法的时间复杂度和空间复杂度。
(以上资讯来源于网络,如有侵权,请联系管理员删除。)
合肥科翔信息技术服务有限责任公司 版权所有 免责声明
地址:安徽省合肥市高新区天元路软件园1号楼210-212室
电话:180-1954-5300 QQ:2501649871
COPYRIGHT © 合肥科翔信息技术服务有限责任公司 ALL RIGHTS RESERVED. 皖ICP备2023003016号-1
技术支持:明图网络