专利语义检索类型：基于本体和语义网的信息检索

来源:时间:2018-12-27 11:44:474176

专利语义检索的目的在于帮助用户发现知识，提高检索的效果，从总体上看，大致可分为基于本体的信息检索和基于语义网的信息检索两种类型。其中基于本体的信息检索主要用于帮助传统信息检索从词型匹配到概念匹配的转变，提高检索的准确性；基于语义网的信息检索的目的则是根据检索帮助用户发现知识，体现知识获取的能力。

专利语义检索类型：基于本体和语义网的信息检索

1 概念扩展检索

概念扩展主要是利用已经建立好的本体（或知识库）中概念分类关系对用户输入的检索词进行上下级类的概念扩展，同时利用本体中的概念问非分类关系进行相应的非分类扩展。例如用户输入检索词“不锈钢”，经过上下级和同级概念扩展后，可拓展为“铁素体”、“奥氏体”、“双向”等不锈钢子类概念，同时可以根据需要向上级扩展为“钢铁”，从而形成“不锈钢＋铁素体＋奥氏体＋双向＋钢铁”的检索词组合，扩大检索结果的查全率。

目前已经有一些专利数据库采用了概念扩展的功能，以帮助用户提高检索准确性。其中以Total Patent专利数据库的概念扩展功能最为强大。该数据库提供了专利的“语义检索”界面，对用户输入的检索词进行概念扩展，以云图方式显示扩展结果，同时允许用户进行相关概念的增删和权重的调整，并提供了扩展检索后的结果预览功能。

另外，Orbit专利数据库也同样具备概念扩展功能，但在可操作性上稍弱于TotalPatent。用户在进行关键词检索时，数据库会提供“关键词检索助手”选项，在“检索助手”内，系统会根据用户输入的检索词进行扩展，扩展结果分为2 层，第一层为与检索词相似的相关概念，第二层为该概念下级的各类术语，用户可以根据需要从中挑选扩充与检索词相关的术语进行检索。

除利用本体之外，有些系统还可以利用数据库的检索历史来进行概念扩展。通过分析数据库用户的检索历史和检索用词的词频，把与目标检索词相关的高频词组合归并为一个类，在用户检索时通过对此类进行扩展，从而提高检索性能。目前国内某大型企业的数字图书馆检索系统已初步实现该功能，该系统从用户的检索历史中提取高频词，由人工确定高频词集合的分类名称，并提供给用户使用。

此外，概念扩展还包括非分类关系的扩展，利用“……的材料”、“……作用”、“……的性能”等已经存在于本体中的关系和属性对检索词进行扩展和推理，并在检索结果中对扩展结果进行标识。例如用户输入检索词“不锈钢”，根据本体中相应的属性和非分类关系，可以扩展为“制作不锈钢的原料”，“不锈钢的用途”，“不锈钢在列车车厢上的应用”等关系。上述关系经语义推理后，得到相关概念并参与检索，从而提高计算机对用户检索意图的理解程度。

2 自然语言检索

在检索过程中，用户不需要构建复杂完整的检索策略，而是把一个句子（或者一段文字）提交给计算机，计算机在得到这种句群后，通常经过如下处理步骤：

①通过分句、分词、去除停用词等处理，形成检索词集合；

② 根据句式进行分析。得出句子中的主语、谓语和宾语；

③ 根据检索词所在位置为集合中的检索词设定不同的权重，交由后台进行检索。

Total Patent的语义检索具备自然语言检索的功能，用户可在检索框中输入一段文字，系统会对文字中的术语进行提取和扩展，并反馈给用户，用户也可对识别出的概念进行调整，以提高检索准确性。

具备自然语言检索功能的专利检索系统还包括由德国INFOAPPS 公司开发的Sem-IP系统。该系统支持对用户输入的句子进行理解，用户无需关心同义词、近义词和语种等问题，系统会自动对概念进行抽取和扩展，确定每个概念的权重并按照权重进行匹配，最终按相关度的高低展示检索结果。

另外，美国Pantros IP 公司开发的ProSEARCH专利检索系统同样拥有自然语言检索的功能。该系统对全球包括美国、日本、欧洲、德国、法国、WlPO 等近20个国家和组织的官方专利数据进行了语义标注，提供语义检索功能，允许用户在系统中输入一段文字进行检索。系统按照句法对用户输入的文字进行概念抽取，并按照概念之间的位置关系确定每个概念的权重后进行后台检索，最后按相关度从大到小的顺序向用户展示检索结果。

自然语言检索的优势在于用户不需要具备很强的检索能力，录入一个句子或一段文字即可进行检索。但是其缺点也很突出，现有的信息技术很难让计算机去真正理解用户的检索意图，使得检索结果的规模过于庞大，从而导致检索失败。因此，一般在进行自然语言检索的同时，通常会将处理后的检索词和句式与本体进行匹配，从而发现检索的重点，以提高检索结果的准确率。

3 结果语义处理

检索结果的语义处理主要是让计算机按照用户的检索意图是对检索结果进行推理，从而起到帮助用户拓宽或聚焦检索目的。检索结果语义处理的主要方式为检索结果聚类。
对检索结果进行聚类，有利于帮助用户发现核心知识，从而对他们优化检索起到一定的辅助作用，当检索结果规模较大时，聚类的作用尤为明显。目前对检索结果聚类有两种方式，分别为按属性聚类和按概念聚类。

按属性聚类 是将检索结果按照申请国、申请年、公开年等属性进行分类汇总，形成诸如国别（“中国”、“日本”、“美国”），时间（“2013 年”、“2012 年”）等统计结果，便于用户从中进行筛选。

按概念聚类 是对检索结果中的专利名称、摘要、权利要求等自然语言文本进行处理，通过分词、去除停用词、同义词近义词合并等处理之后形成向量矩阵，再利用层次聚类或K 均值聚类等方法进行聚类的过程，其中每一层的聚类标签通过综合相似度计算或词频计算得到。聚类的结果成树状结构，便于用户发现核心概念和知识。

在常用的专利数据库中，Thomson Innovation专利数据库提供了检索结果的聚类。相对于其他专利数据库，该系统提供的聚类功能交互性较强，用户可以自由选择参与聚类的字段。聚类结果以树状结构展示，类标签由一个或多个词组成，每个大的类簇下显示有和文档数量，便于用户筛选浏览。

Orbit也对检索结果提供聚类功能，聚类结果以“云图”的方式显示。其中每个词（词组）均代表一类概念，字体越大表示类簇中文档数量越多，从而能帮助用户快速找到当前检索结果中的核心概念。

ProSEARCH专利检索系统由于其对收录的专利信息都进行了语义标注，因此聚类结果更加准确。该系统提供了聚类引擎，能够帮助用户对当前检索结果按技术领域进行快速聚类。其中聚类标签以一个或多个关键词显示，并给出了类簇的文档数量。除此之外，聚类引擎还对检索结果中的分类号、申请人、申请日、公开日、国家等属性进行了聚类，信息提供更加全面。

本文仅为行业信息整理与知识分享，不构成专业意见或权威认证结论。

微信扫一扫，有惊喜

你的商标价值多少？

免费领取商标分析报告

关于国内政策，您可能还想知道？

什么是驰名商标注册商标要多少钱怎么查询商标

免费咨询5分钟内知产顾问快速回电

问题描述:

信息保护中，请放心填写

*联系方式:

相关新闻

网红糕点“鲍师傅”商标纠纷案新进展

因不服原国家工商行政管理总局商标评审委员会（下称原商标评审委员会）就鲍才胜餐饮管理有限公司（下称鲍才胜公司）针对17899096号“鲍师傅Bao Shi Fu及图”商标（下称诉争商标）提起的无效宣告请求所作出的裁定（下称被诉裁定），北京易尚餐饮管理有限公司（下称易尚公司）提起行政诉讼。

“永和豆浆”遭遇商标侵权？

近日，北京市海淀区人民法院（下称海淀法院）针对原告上海弘奇永和餐饮管理有限公司（下称永和公司）诉被告北京三快科技有限公司（下称三快公司）、侯马市紫金山北街逸香缘饭店（下称逸香缘饭店）侵犯商标权纠纷一案作出一审判决，判令逸香缘饭店停止侵权并赔偿永和公司经济损失及合理开支3.3万元。

论“东北大板”的商标纷争

近日，北京市高级人民法院作出终审判决认为，哈尔滨市道里区顺达冷饮厂（下称顺达冷饮厂）的第15585168号“老哈大板”商标（下称诉争商标）与黑龙江大庆市红宝石冰淇淋有限公司（下称红宝石公司）的第9175764号“大板”商标（下称引证商标），构成使用在同一种或类似商品上的近似商标，应予宣告无效。

知名人物频遭商标抢注，知识产权意识急需提升

“近年来，知名人物遭遇姓名被他人抢注为商标的现象屡见不鲜，刘德华、张学友、姚明、papi酱等均未能幸免。”日前，北京市律师协会商标法委员会副秘书长申健在接受中国知识产权报记者采访时表示，没有针对自身姓名进行商标布局却未遭遇商标抢注，周杰伦不可不谓之幸运，但“上医治未病”，知名人物应当提高商标保护意识，事前主动布局、事后积极维权，有效做好自身姓名的商标布局和保护工作。

优舫公司赔偿人人车公司经济损失和合理支出共计570万元

因认为优舫（北京）信息科技有限公司（简称“优舫公司”）在多家应用使用“人人车”名称构成不正当竞争，人人车公司将其诉至法院。今日（9月19日），新京报记者从北京知识产权法院法院获悉，法院一审认定优舫公司构成对人人车公司相关权益的不正当竞争，判令优舫公司承担停止侵权、消除影响的责任，并赔偿人人车公司经济损失和合理支出共计570万元。