服务咨询电话
发表于:2019-05-28
作者:科翔信息
浏览 109 次
专利申请号:
CN201310576331.5
专利类型:
发明
IPC 分类号:
G06F17/30
应用领域:
用于 Web 页面。
现有技术缺点:
现有方法生成的大规模数据存在真实性问题。
技术优势:
本发明使用真实小规模数据来生成大规模的相对真实可靠的数据来提供给数据中心的应用,从而使得到的研究结果有更加真实。通过提取小规模的真实数据的特征,进而基于获得的特征来生成大规模的数据。
摘要:
本发明公开了一种基于 Web 页面的大规模数据生成方法,通过将原始小规模种子网页按长度分类的方式,依据原始网页的长度和词频信息生成大规模的文本数据,入出度生成和 URL 赋值,则根据原始种子页面中每类页面的入出度的条件概率计算生成网页的入出度值,利用已有入出度值向网页中插入 URL,使得在生成的数据中, 入度的总和是等于出度的总和。通过提取小规模的真实数据的特征来生成大规模的相对真实可靠的数据来提供给数据中心的应用,从而使得到的研究结果有更加真实。
(以上资讯来源于网络,如有侵权,请联系管理员删除。)
合肥科翔信息技术服务有限责任公司 版权所有 免责声明
地址:安徽省合肥市高新区天元路软件园1号楼210-212室
电话:180-1954-5300 QQ:2501649871
COPYRIGHT © 合肥科翔信息技术服务有限责任公司 ALL RIGHTS RESERVED. 皖ICP备2023003016号-1
技术支持:明图网络