1 认识文本预处理
学习目标¶
- 了解文本预处理相关内容
1 文本预处理及其作用¶
- 文本语料在输送给模型前一般需要一系列的预处理工作, 才能符合模型输入的要求, 如: 将文本转化成模型需要的张量, 规范张量的尺寸等, 而且科学的文本预处理环节还将有效指导模型超参数的选择, 提升模型的评估指标.
2 文本预处理中包含的主要环节¶
- 文本处理的基本方法
- 文本张量表示方法
- 文本语料的数据分析
- 文本特征处理
- 数据增强方法
2.1 文本处理的基本方法¶
- 分词
- 词性标注
- 命名实体识别
2.2 文本张量表示方法¶
- one-hot编码
- Word2vec
- Word Embedding
2.3 文本语料的数据分析¶
- 标签数量分布
- 句子长度分布
- 词频统计与关键词词云
2.4 文本特征处理¶
- 添加n-gram特征
- 文本长度规范
2.5 数据增强方法¶
- 回译数据增强法
2.6 重要说明¶
- 在实际生产应用中, 我们最常使用的两种语言是中文和英文,因此文本预处理部分的内容都将针对这两种语言进行讲解.