使用OCI构建数据湖
发布时间: 2021-06-17
越来越多的企业正进行数字化转型以提升企业自身的管理能力、创新能力和营销能力。在这个过程中,数据扮演着非常重要的角色,面对大数据,传统的数据仓库架构已经力有未逮,所以产生了数据湖这种新型的架构。
什么是数据湖
数据湖是一个可扩展的中央数据存储仓库,用于存储各种各样的原始数据,便于后期的数据挖掘和探索,是一个敏捷的数据平台。
通过和数据仓库的对比加深对数据湖的认识:
数据湖是基于shema-on-read模式的, 这样有助于存储和计算分离, 既可以轻松的存储大量的数据 ,实现数据的集中化管理,又可以灵活的调配计算资源进行数据分析和探索。
在OCI上构建数据湖
目前数据湖技术方案主要有如下两种:1:Hadoop平台, 2:云平台。而云平台的存储和计算完全分离的特点使得它成为目前数据湖的最佳技术方案。
Oracle Cloud Infrastructure提供的强大的数据服务可以帮助企业快速的构建数据湖, 进行数据的自助分析, 开展业务的创新,下图是基于Oracle Cloud Infrastructure构建的数据湖的技术架构,实现从数据提取到数据洞察的全流程支撑。
数据存储
数据湖的核心就是数据存储,它存储着企业的核心数据资产,数据存储必须安全可靠,同时为了避免数据孤岛,数据湖一般作为企业的中央存储库,所以性能和扩展性要好,用于快速存储和快速访问。
Oracle数据湖使用Oracle Object Storage作为数据存储,它具有如下的优点:
1、高性能和强一致性: Oracle Object Storage 支持低延迟,高吞吐的访问,同时提供强一致性保证。
2、方便快捷: Oracle Object Storage 的存储可以动态扩展和收缩而没有限制,用户只需要为实际消耗的存储付费, 除此之外,提供了很多的数据访问接口,便于和各种平台集成。
3、安全可靠:Oracle Object Storage 中数据支持访问控制,支持加密, 保护企业对数据的控制权,同时,同时具有非常高的持久性保证了数据的可靠性.
4、支持数据分层: 满足不同的数据生命周期对存储的需求。
为了便于数据的分析和管理,建议在对象存储中存储下列格式:
CSV, Excel
ORC, Avro, Parquet
JSON
数据集成
数据越丰富,分析越全面, 数据湖作为企业中央存储库必须能够从不同来源提取不同类型的数据,如OLTP,IOT以及日志数据等。
Oracel提供全面的数据集成方案满足企业客户复杂的需求:
OracleGoldenGate : 可以无侵入的把关系型数据库的数据实时集成到Oracle Object Storage中。
Oracel DataIntegrator: 可以批量集成各种类型的离线数据集成到Oracle Object Storage中。
OracleOCI Streaming: 可以把IOT,事件消息等数据实时的集成到Oracle Object Storage中。
数据处理
数据湖中存储着海量的原始数据, 在使用这些数据时需要进行数据清洗和去除,数据标准化还有数据的汇总加工等, 数据湖的数据处理工具必须支持多种数据格式,同时数据的体量大小不一,数据处理工具可以灵活的调整计算资源加快数据处理。
Oracle Cloud Infrastructure Data Flow是一项完全托管的数据处理服务,可让您运行ApacheSpark应用程序而无需部署或管理任何基础结构。他有如下特点:
1: 是一个开箱即用的服务, 客户可以快速运行spark应用, 不需要集群的安装升级等,而且在spark应用运行完成自动释放资源。
2: 多种开发接口, 支持python, scala, java, sql等。
3. 易于调试和诊断, 改服务把计算的日志信息收集到同一个地方.帮助数据开发人员快速调整和诊断。
数据管理
数据湖中存储在各种各样的原始数据, 为了敏捷的自助分析, 数据使用者需要快速的查找,理解和跟踪这些数据, 数据湖中必须进行数据的组织和管理。
Oracle CloudInfrastructure Data Catalog通过采集元数据信息,包括技术元数据,业务元数据和操作元数据等构建一个统一的数据目录,帮助数据使用者收集,组织,查找,访问,丰富元数据,以支持数据自服务和数据治理。
支持采集的数据源有:
Oracle CloudInfrastructure Object Storage
Oracle Database
OracleAutonomous Transaction Processing
OracleAutonomous Data Warehouse
Oracle MySQLCloud Service
Hive
Kafka
支持采集的文件格式有:
CSV, Excel
ORC, Avro,Parquet
JSON
数据分析和挖掘
数据湖最终目的是提供批量报表、即席查询、交互式分析、数据仓库、机器学习等上层数据应用, 针对这些场景,Oracle Cloud都提供全面的解决方案。
1、数据仓库 Oracle ADW带来了一个易于使用、完全自治的数据库,该数据库支持弹性扩展,具有闪电般的查询性能并且无需管理, 可以使用Data Flow把标准化以及结构化后的数据写入到ADW中构建数据仓库等应用。
2、机器学习 Oracle Data Science服务是一个全托管,自服务的数据科学平台, 可以进行模型的构建,训练,管理等工作。
3、BI分析 Oracle Analytics Cloud是一个全托管的敏捷数据分析平台,客户可以在上面进行数据探索和报表的开发工作。
总体来说,使用Oracle CloudInfrastructure构建数据湖有如下的优势:
上一篇: IP路由基础详解
下一篇: 如何配置OCI实例上的多个私有IP地址