跳转至

大模型底层原理讲座 V1.0 1.1 大模型发展历史

大模型底层原理讲座 V1.0

第一章:大模型简介
第一章:大模型简介
- 1.1 大模型发展历史 1.1 大模型发展历史
  目录
  - 文本摘要介绍
    
    学习目标
    
    理解什么是文本摘要任务
    
    了解文本摘要的基本方法和思路.
    
    抽取式摘要(Extraction-based)
    
    生成式摘要(Abstraction-based)
- 1.2 大模型底层涉及的关键技术
第二章:分布式通信
第二章:分布式通信
- 2.1 分布式通信基础理论
第三章:分布式并行
第三章:分布式并行
第四章:Gpipe与PipeDream
第四章:Gpipe与PipeDream
- 4.1 原理解析
第五章:ZeRO深度解析
第五章:ZeRO深度解析
- 5.1 ZeRO原理解析
第六章:Megatron-LM
第六章:Megatron-LM
第七章:DeepSpeed-Megatron
第七章:DeepSpeed-Megatron
- 7.1 MoE原理解析
- 7.2 MoE源码解读

1.1 大模型发展历史

文本摘要介绍¶

学习目标¶

理解什么是文本摘要任务.
了解文本摘要的基本方法和思路.

理解什么是文本摘要任务¶

本质: 文本摘要任务就是利用模型自动完成关键信息的抽取, 文本核心语义的概括, 用一个简短的结果文本来表达和原文本同样的意思, 并传达等效的信息.
- 中学语文课的中心思想概括.
- 新浪体育上的体育新闻短评.
- 今日头条上的每日重要新闻概览.
- 英语考试中的概括某段落信息的选择题.

了解文本摘要的基本方法和思路.¶

从NLP的角度看待文本摘要任务, 主流的涵盖两大方法:
- 抽取式摘要: Extraction-based
- 生成式摘要: Abstraction-based

抽取式摘要(Extraction-based)¶

直接从原文中选择若干条重要的句子, 并对它们进行排序和重组, 以形成摘要的方法.
- 无监督抽取.
- 有监督抽取.

无监督抽取: 不需要平行语料, 节省了人工标记的成本. 大体上有如下几种:
- Lead
- Centroid
- ClusterCMRW
- TextRank

最著名的无监督抽取方法就是TextRank算法. 这些方法都是基于统计层面的, 即最大化摘要句子对原始文档的表征能力.

有监督抽取: 将文本摘要抽象成二分类问题, 通过神经网络来学习句子及其标签之间的对应关系. 需要平行语料, 需要人工标记的成本. 常见方法有如下几种:
- R2N2
- NeuralSum
- SummaRuNNer
- BertSum

最著名的有监督抽取方法就是BertSum算法. 也是目前有监督抽取中最有效, 最前沿的方法.

生成式摘要(Abstraction-based)¶

采用基于神经网络模型的结构, 通过Encoder + Decoder的连接方式, 自由生成一段概括源文档信息的文本.

生成式摘要基于对篇章article的精确理解, 回顾之前我们对字向量, 词向量的理解. 再到语句, 段落的理解, 难度不断增加. 现在升级到了大段落, 甚至篇章的理解, 因此文本摘要是一个很有难度的任务.