服务咨询电话
发表于:2019-06-12
作者:科翔信息
浏览 80 次
专利申请号:
CN200910091375.2
专利类型:
发明
IPC 分类号:
G06F17/30
应用领域:
用于 Web 视频页面中准确有效的提取文本信息。
现有技术缺点:
现有技术的算法无法直接应用到复杂命名识别抽取中;同时算法也没有对命名实体做精细的类别划分。
技术优势:
1、精确提取 Web 视频页面中的文本信息;
2、能够抽取出各个类别中的复杂命名实体,为用户推荐最新最热门的各类信息;
3、频页面的变化发现新的复杂命名实体,具有及时、快速、准确的技术效果;
4、通过从候选特征词中选择出在类别内均匀分布在类别间集中分布的词为特征词,去除存在干扰的特征词,提高抽取准确性。
摘要:
本发明涉及 Web 视频页面的复杂命名实体的抽取方法及系统,方法包括:步骤 1,对于 Web 视频页面集合中的每个 Web 视频页面,从Web 视频页面中抽取有效文本信息,有效文本信息组成视频文本, 所有视频文本组成训练集合;步骤 2,对 Web 视频页面进行归类, 选择类别,对于每个被选的类别设置引导词,从训练集合中选择同引导词相关并且在类别内均匀分布在类别间集中分布的词为特征词;步骤 3,从训练集合中提取出同特征词相关的词为候选复杂命名实体,按候选命名实体相关的特征词同类别的关联度,为各个被选类别从候选命名实体中选择对应的复杂命名实体。本发明能够不需要经过长时间的模型训练而从 Web 视频页面中提取复杂命名实体。
(以上资讯来源于网络,如有侵权,请联系管理员删除。)
合肥科翔信息技术服务有限责任公司 版权所有 免责声明
地址:安徽省合肥市高新区天元路软件园1号楼210-212室
电话:180-1954-5300 QQ:2501649871
COPYRIGHT © 合肥科翔信息技术服务有限责任公司 ALL RIGHTS RESERVED. 皖ICP备2023003016号-1
技术支持:明图网络