关键字选择摘要

专注网站优化;指定词优化;下拉霸屏;网站建设网站推广优化方案快速排名下拉框老域名;联系QQ/微信:690487030

  0概述

  在自然语言处理领域,处理海量的提取文本文件是最关键的问题应用户最关心的。无论是长期的文本或短文本,往往可以窥视一些关键字,整个文本的主题。与此同时,无论是基于文本的关键字相关的推荐文本或基于文本的搜索也是一个伟大的准确度直接关系到关键字提取系统或者搜索系统推荐的最终结果。因此,在文本挖掘领域的关键词提取是一个非常重要的组成部分。

  关键词:源英文关键词,从应用的角度看,是指单个媒体生产指数使用,所用的词汇。从学术角度,是指从报告文献索引,选择纸张纸外,以指示的字或词语所规定的信息为目的的主题。这里所说的是包含一个语素(语言的最小意义单位)字样或语言都可以自由使用的最小单位合同,是指在专业方面的主题。综上所述,关键词是文本,包括单词,术语和短语的主题的词表述,意思是一个独立的非复数。它含有一定量的信息,理解文字内容的作用。根据包含文本信息的数量,分为核心关键词的规模,扩大关键字(词不值钱的,非关键字)

timg.jpg

  核心重点:主要议题包括文本的核心内容,文字一般不超过3%,不超过五个号码。

  展开关键词:核心关键词核心关键词,而不是文本之外,但涉及到的文本内容,具有一定规模的信息。

  一个基本流程图

  2算法介绍

  2.1主要分类

  关于关键字提取方法文本的监督,半监督,并在三个方面无监督:

  1)监督

  关键字提取算法被看作是一个二元分类问题,确定单词或短语在文档中是或不是一个关键字。既然是分类问题,我们需要提供良好的培训的预期已经被打上了训练语料火车关键词提取模型的基础上,需要一个文档以提取关键字的关键字提取模型。

  2)半监督

  训练数据的仅少量,使用构建体关键词提取模型,然后使用新的文本关键字提取,这些关键字过滤手册,通过过滤得到的关键字中加入训练集的模型训练数据,模型再训练。

  3)无监督

  没有手动标记语料库,利用语言文字中的一个重要的词作为关键词,关键词提取功能找到。

  注:由于监督文本关键词提取算法需要手动标记的训练样本,成本高,所以普通的文本关键词提取主要是强监督的关键词提取的适用性。

  2.2主要算法

  图关键词提取算法如下:

  基于统计特征2.2.1关键词提取算法

  基于关键字提取算法思想的统计特性是文档中使用的统计信息中提取文档的关键字词。文本通常进行预处理以获得一组的候选词,然后量化特征值实施例从候选集合关键字获得。基于对什么是量化指标特征值的方法统计特性的关键关键字提取方法,目前常用的有三类:

  2.2.1.1根据正确的字特征量化的权重

  基于单词的语音特征包括量化,术语频率逆文档频率,相对词频,字长等的重量。

  2.2.1.2基于量化word文档位置的特性

  此功能是根据在不同假设的不同位置的文件的重要性的文章,以量化的句子的方式。在一般情况下,前N个字的文章的字位置,N个字,第一个段落,段落,标题,介绍和其他代表结束后,这些词作为关键词可以表达整个主题。

  基于量化字的特性2.2.1.3相关信息

  相关信息词指的是相关信息的字和词,word文档,包括共同的信息化程度,命中值,贡献,依赖,TF-IDF值等。

  这里有一些共同的特征值量化指标。

  1)讲话

  通过字的讲话,分析得到的结果。现有的关键字,绝大多数名词或动名词的关键字。一般来说,术语与其他词类更能表达的AR的主要思想比较


专注网站优化;指定词优化;下拉霸屏;网站建设网站推广优化方案快速排名下拉框老域名;联系QQ/微信:690487030

0 条评论

目前没有人发表评论

发表评论

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。