Skip to content

ETL (Extract-Transform-Load)

数据处理流程: 提取, 转换, 加载 ETL是集中式与批处理的数据处理流程,其包含三个部分

  • 数据源
  • 处理操作
  • 目标系统

概念

概念包括三部分,也就是ETL对应的释义

Extract

从数据源中抽取原始数据,不对其进行任何改动 一般需要对原始数据进行备份,以便后续流的运行 数据源可以是静态系统、web、database等;更进一步地说,可以是书籍、报刊、论文、照片等实际物体来源

Transform

转换也就是在上一步数据提取的基础上进行加工,经过层层的计算、过滤清洗、映射等,最终实现的效果达到我们期望的阈值

Load

加载是整个ETL流程的最后一步,将转换过后的数据按照正确的数据结构与规格要求加载到对应的系统上,系统一般是database

应用场景与特性

数据集成处理:集中式数据存储与处理 数据集成整合:集中式数据迁移与整合

特性

  • 一致性高(批处理);对应地,实时性差,且容易遇到性能问题
  • 易维护(集中式);对应地,缺乏灵活性、扩展性差

实践

常规思路是通过后端-数据库对数据进行处理 值得一提的是,一般这种处理属于后期处理,前期的数据采集,也就是前端表单等往往容易被忽视,如果在数据采集的阶段可以解决或者优化的地方,尽量不要放到后端