机器自学习语义文本相关度分析技术

摘要：本技术成果名为“人工智能语义文本相关度分析技术”，主要采用目前世界上人工智能的自然语言处理领域最尖端的技术——“机器无指导自学习技术”，用于文本语义库的自动构建和维护，并主要将语义库的数据应用于文本相关度的分析。而且该技术实现了语言种类无关性，即其核心可不加修改地应用于任何语言。

关键词：文本相关度分析、相关度、语义、人工智能、自然语言处理、机器学习、机器无指导自学习

所谓文本相关度分析，即是分析关键词与文章或文章与文章之间的相关程度，这是所有计算机信息检索和搜索引擎的最基础，因为只有知道了检索关键词与某篇文章的相关程度，才能够确定这篇文章是否是所需要的检索结果，否则一切信息检索都无从谈起。

目前搜索引擎及信息检索所应用的文本相关度分析技术，仍然是基于关键词出现频度的传统技术，即关键词在文章中出现就认为两者相关，不出现就认为两者不相关；关键词在文章中出现的次数多，就认为两者的相关程度高，否则就认为相关程度低。

这一技术虽然能够在一定程度上确定关键词与文本的相关度，但是从根本上说这只是一种替代技术，并不是真正意义上的相关度分析。因为我们知道，我们人类在分析关键词与文本的相关度时，并不是只看关键词在文章中是否出现，而是从关键词的词义以及整个文章的意思上去判断两者的相关程度，即从语义上去分析两者的相关度。

比如，一篇文章里面出现了这样一句话“将地球压缩到一个乒乓球大小，其密度就和黑洞相当”，虽然这篇文章中出现了“乒乓球”这个词，但我们人都可以判断出这篇文章与“乒乓球”这项运动实际是没有任何关系的，当我们需要找有关乒乓球运动的文章时，是不会将这篇文章列为所需要的文章。然而由于电脑并不知道这个词的词义，更不知道整篇文章所讲述的内容意思，采用关键词出现频度的技术就无法对上述例子做出正确判断，而这种情况在文章中是普遍存在的。

再比如，一篇分析某只股票的文章，它是给行内人看的，可能是从企业业绩、大盘走向、经济环境等等方面进行分析，整篇文章中并不一定出现“股票”这个词，如果采用关键词出现频度的技术，同样无法判断出“股票”这个词是否与这篇文章相关，而我们人一看就知道这两者是紧密相关的。有时，“股票”这个词在这类文章即使出现，也是出现的很少，整篇文章只出现一、两次，关键词出现频度技术就会判断两者的相关度很低，但我们都知道它们的相关程度实际上是很高的。

由此我们可以看出，判断关键词是否出现的相关度分析技术，准确度低，误判率很高。但目前仍然被普遍采用，一是因为技术上无法突破，二是因为搜索引擎海量的信息结果将这一问题掩盖了。因为互联网上的文章数量巨大，即使用普通的准确率低的技术，由于有大量包含关键词且与关键词相关程度高的文章被排在了搜索结果的前面，因此让人误以为这种技术的准确度还是很高的。

其实如果将这一技术用在按关键词定制新闻（根据指定关键词跟踪每日新闻）等应用上，其准确率低的问题就会明显暴露出来，由于每天和关键词真正相关的文章并不一定很多，有时是很少甚至没有，那么采用这种技术就会看到跟踪结果中有大量不相关的文章出现。比如定制的关键词是“量子”，结果中常常有大量关于“量子高科公司”的文章，因为这些文章中有大量“量子”这个词出现，但实际上“量子高科公司”与“量子”没有任何关系，只是这家公司叫了这么一个名字而已。在现有世界上一些主要的搜索引擎相关应用当中即可看到这种情况。

如果能够根据一种语言里所有词汇的词义构建一个语义数据库，在进行相关度分析时通过人工智能的自然语言处理技术分析出文章和关键词的语义，那么就可以达到较为准确的相关度判断结果，甚至接近人类判断的准确程度，这也是本技术成果中采用的主要技术之一。目前国内外一些研究机构也正在进行这方面的探索，如构建词性标注数据库等。

但是，如果要构建一个全领域（即涵盖一门语言中所有词汇）的语义数据库，其成本是非常高昂的，因为每个专有领域（如理论物理、哲学、金融等等）的词汇必须要由这个领域的专家来构建和维护，光是如此众多专家的聘请就需要非常巨大的资金投入，这不是一般机构能够负担得起的。另外，每个领域中的词汇和词义都是在随着社会发展不断增加和演化的，用人工维护的方法是很难跟上社会需要的发展和变化，常常会有较大的滞后。而如果要为各种语言都构建和维护这样的语义库，就更是不可想象的庞大工程了。

因此，本技术成果通过十年的研究发展，在人工智能的最尖端领域——“机器无指导自学习”技术的实用化上取得了成功突破，这也是本技术成果中最核心的技术。

即采用本技术成果，计算机可自己采集互联网上海量的文章，对采集到的语料数据自动进行分析、学习，根据分析、学习的结果自动构建和维护语义数据库。经过一段时间的实践验证，本技术成果已经完全能使这一技术达到实用的程度。而在整个系统的运行过程当中，全部由机器自组建和自维护，完全无需人工干预，极大地降低了应用的成本，成功将这一尖端技术实用化。

系统一旦开始运行，将持续不间断地在互联网上采集数据进行学习和分析，能够将各种新出现的文本数据采集到系统中，做到自动维护和更新，因此能够根据社会的发展将新词及时采集到系统中，并能自动及时跟进各种词汇语义的变化和发展。

同时本技术成果实现了语言种类无关性，即它的核心部分可不加修改地应用于任何自然语言，这也是本成果中非常重要的技术之一，可非常容易地构建多语言版本语义库，并应用于该语言的文本相关度分析。目前已成功应用于中文和英文两种语言。

本技术成果可应用于文本信息检索、搜索引擎、新闻和情报信息跟踪、文本分类、文本聚类、文本相似度比较、文本内容监控、文本摘要提取、自动翻译等等方面，有效减少信息的错判和漏判，从而在很大程度上提高这些应用的准确程度。

而且本技术的核心思想，即机器无指导自学习的思想，不仅可以用于文本方面，也可以进一步发展用于人工智能的各个方面，如语音、图片、视频等等。从某种意义上说，这也许解决了人工智能的最本质问题，即机器可以发展出它自己的智能。

未经允许不得转载：哈勃私语 » 机器自学习语义文本相关度分析技术

本文共2438个字创建时间：2015年8月8日19:28

相关推荐