大多数的数据仓储项目,包含着必须从各个不同的数据源系统来撷取所需之数据数据,来源系统可能位于不同的组织、部门,以各自不同的架构、格式、方法储存数据数据。不论是自行撰写程序,或购买工具来执行数据撷取的工作,都必须注意到程序或工具对于撷取接口的可扩充性及多样性。一般常见的数据源为文本文件格式和关系数据库系统,而非关系数据库系统和特殊数据格式内容的系统或文件格式,如:VSAM、ISAM、Excel、Http Web Page、XML、PDF、binary data ...等也极有可能是数据源。这些源数据具有下列特性:通常为距现在时间较近、较实时的交易性数据;因为需要能够将数据较快速地反应给前端的使用者,通常都已经针对数据结构进行过优化的微调;数据可能己进行过正规化或反正规化的过程。