百度爱采购多少钱开户
专利名称:自动添加内链的方法和系统
专利摘要
本发明公开了一种自动添加内链的方法和系统,包括:切断接收到的条目信息以获取关键字;根据预设的捕获策略,从关键字中捕获要添加内链的单词;添加内链的单词。本发明通过系统自动添加策略,减少人工投入,在一定程度上丰富百科词条的内链,大大提高百科词条的内链量和准确性。对于浏览用户,不需要花费大量的时间和经验来搜索相关的困难术语,提高扩展阅读体验,降低搜索成本;对于编辑用户,节省相关条目的劳动力成本,避免主观随机性,提高针对性和有效性;对于管理团队,大大降低了增加内部链编辑版本的成本。
内链系统
切词模块用于切词接收的条目信息以获取关键词 ;
根据预设的抓取策略,从所述关键字中抓取要添加内链的词汇 ;
添加内链模块,自动添加待添加内链的单词。
内链的作用
改善浏览用户的延伸阅读体验,在主题条目中添加内部链接(以下简称内部链),注释或扩展添加内部链的主题词。遇到添加内链的主题词后,用户可以点击内链给出的链接自动回答问题,极大地方便了用户的阅读 ;
同时,具有内链的电子百科全书在知识体系结构上也更加完善,也有利于减少对同一罕见或热点事件的重复注释,提供系统的资源利用率。
此外,研究发现,通过内链渠道,总页面浏览率可以有效提高条目(PV,PageView),提供用户忠诚度,同时方便用户阅读。
此外,研究发现,通过内链渠道,总页面浏览率可以有效提高条目(PV,PageView),提供用户忠诚度,同时方便用户阅读。
现状问题
设置内链的现有方法主要包括手动添加和系统自动添加。
对于人工添加的方式,由于添加内链是基于自己的知识能力/经验来决定添加什么词,主观任意性强,需要添加内链而不添加内链,不需要内链注释的主题词添加内链,导致内链遗漏和内链闲置。此外,人工添加需要大量的人力物力,特别是在知识爆炸的时代。大量信息的瞬时爆发对设置内链的及时性和有效性提出了更高的要求,但传统的人工添加方法效率低下,远远不能满足需求。
对于机器添加机器的方式,由于其对目标主题词内链的必要性没有严格判断,几乎所有主题词都有内链,针对性和选择性差,导致大量无用的内链最终闲置,没有得到有效利用,导致系统资源的浪费。
专利目的
本发明需要解决的一个技术问题是提供一种自动添加内链的方法和系统,可以提高内链添加的效率和针对性,有效丰富百科全书条目的内链。
相关性判断
AB词条出现在词条正文中,A词条出现在B词条正文中,则判定两者相关。
过滤系统
当捕获的互链词不再添加到条目信息文本的第一个位置时,例如,除了汉王电纸书条目信息文本中的第一个ipad保留待添加的内链,其他后来出现的ipad均可过滤掉 ;
当互链词与词条名有同义词关系时,如汉王电纸书词条信息正文中的互链词汇ipad苹果电子书阅读器和苹果电子书阅读器属于同义指代关系。如果苹果电子书阅读器是前面需要添加内链的词,那么后面的ipad可过滤掉 ;
当互链词汇相邻,形成长词汇短语,长词汇与现有另一个互链词汇的名称完全匹配时,过滤短互链词汇;如果有互链词汇苹果公司和电子书阅读器,两个互链词汇相邻形成长词汇短语苹果电子书阅读器,如果长词汇短语恰好是另一个互链词汇,那么长词汇短语要添加内链的互链词汇,过滤掉两个短互链词汇;
当两个或两个以上的互链词交接切词时,它们含有相同的词素,过滤掉互链词,如苹果电子书阅读器和苹果 ipad切词后含有相同的词素苹果ipad属同义词素 ;
此外,对于纯数字和特殊符号 ( 包括拼音、罗马字符、日文片假名等所有特殊符号列表的内容 )互链词汇等构成,它本身不需要扩展阅读,所以你可以筛选和过滤这些互链词汇 ;
同样,互链词汇也有时间表达的特点,成都百度开户比如 X 年、X 月X 互链词汇由日等组成(X 包括中文复杂/ 简体数字、全/半角阿拉伯数字),它本身不需要扩展阅读,所以你可以筛选和过滤这些互链词汇。
最终结果
本发明通过系统自动添加策略,减少人工投入,在一定程度上丰富百科词条的内链,大大提高百科词条的内链量和准确性。
对于浏览用户来说,不需要花费大量的时间和经验来搜索相关的困难术语,提高扩展阅读体验,降低搜索成本;
对于编辑用户来说,节省了为相关条目添加内链的人工成本,避免了人工添加内链的主观随机性,提高了内链的针对性和有效性 ;
对管理团队而言,大大降低了人工审核增加内链编辑版本的成本。
建立自己的内链系统
1.准备大量关键词,通过关键词挖掘系统可以实现关键词获取方式,如抓取大网站关键词系统或百度凤巢API接口等。
2.建立关键词和页面映射关系,主要通过文章切词系统实现(切词需要预设字典,第一步将使用大量关键词)。每篇文章提取三个关键词作为相应的映射关系。
2.建立关键词和页面映射关系,主要通过文章切词系统实现(切词需要预设字典,第一步将使用大量关键词)。每篇文章提取三个关键词作为相应的映射关系。
3.建立内链相关系统,参考百科全书AB词条映射计算相关性。(如果太复杂,这一步可以跳过)
4、内链添加规则,首次出现位置添加内链,长词优先合并短词。
5.内链更新周期根据网站内容输出频率确定,一般以周为单位。