跳转至

1 认识文本预处理

学习目标

  • 了解文本预处理相关内容

1 文本预处理及其作用

  • 文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.

2 文本预处理中包含的主要环节

  • 文本处理的基本方法
  • 文本张量表示方法
  • 文本语料的数据分析
  • 文本特征处理
  • 数据增强方法

2.1 文本处理的基本方法

  • 分词
  • 词性标注
  • 命名实体识别

2.2 文本张量表示方法

  • one-hot编码
  • Word2vec
  • Word Embedding

2.3 文本语料的数据分析

  • 标签数量分布
  • 句子长度分布
  • 词频统计与关键词词云

2.4 文本特征处理

  • 添加n-gram特征
  • 文本长度规范

2.5 数据增强方法

  • 回译数据增强法

2.6 重要说明

  • 在实际生产应用中, 我们最常使用的两种语言是中文和英文,因此文本预处理部分的内容都将针对这两种语言进行讲解.