主页 > 电脑硬件  > 

【nlp】1.4文本特征处理(n-gram特征、文本长度规范:补齐与截断)

【nlp】1.4文本特征处理(n-gram特征、文本长度规范:补齐与截断)

文本特征处理 1 什么是n-gram特征 2 文本长度规范及其作用 文本特征处理的作用:

文本特征处理包括为语料添加具有普适性的文本特征,如:n-gram特征,以及对加入特征之后的文本语料进行必要的处理, 如: 长度规范。这些特征处理工作能够有效的将重要的文本特征加入模型训练中,增强模型评估指标。

常见的文本特征处理方法:

添加n-gram特征 文本长度规范 1 什么是n-gram特征

给定一段文本序列, 其中n个词或字的相邻共现特征即n-gram特征, 常用的n-gram特征是bi-gram和tri-gram特征, 分别对应n为2和3.

举个例子:

假设给定分词列表: ["是谁", "敲动", "我心"] 对应的数值映射列表为:
标签:

【nlp】1.4文本特征处理(n-gram特征、文本长度规范:补齐与截断)由讯客互联电脑硬件栏目发布,感谢您对讯客互联的认可,以及对我们原创作品以及文章的青睐,非常欢迎各位朋友分享到个人网站或者朋友圈,但转载请说明文章出处“【nlp】1.4文本特征处理(n-gram特征、文本长度规范:补齐与截断)