企业数据上云构建数据湖的正确姿势

  • 时间:
  • 浏览:3
  • 来源:uu快3套路_uu快3口诀_规则

当容量大、速率小时,推荐离线迁移(闪电立方设备),它有3类设备:

企业通过构建云上数据湖、挖掘更多价值,从而驱动行业新未来,数据湖构建分为有一二个 环节:

除迁移服务外, OSS还提供迁移工具。容量小于150TB时,推荐使ossutil;容量大于150TB时,推荐使用ossimport,它支持充裕的数据源,可采用单机、多机模式部署,从而适应大规模的数据迁移。

迁移过程中,建议使用CRC64检查数据一致性;并肩,都时要查看日志、并对比源和目的对象列表,确认迁移完备度。

在前一天落幕的2019中国数据与存储峰会上,阿里云对象存储OSS(Object Storage Service)和业界专家并肩探讨了《企业数据上云构建数据湖的正确姿势》。OSS作为非内部结构化数据存储池和数据湖底座,为双十一期间淘宝、天猫、支付宝等应用提供了如丝般顺滑的图片、视频体验,OSS基于多年支撑双一的上云经验,从“迁、存、稳、用”二个纬度总结了上云的正确姿势。

OSS提供两大类加密依据,服务端加密SSE(Server-Side Encryption)和客户端加密CSE(Client-Side Encryption)。

服务端加密,又分为如下种类:

OSS支持有三种授权模式:

安全保存好数据后,日后 就是我做好数据保护,保证数据不丢不错,抵御自然灾害、人为误操作。

针对内部结构化数据的大数据分析,OSS和阿里体系的大数据相关产品结合,通过业务打磨,提供了如下典型的防止方案:

针对企业的非内部结构化数据,OSS提供两类迁移方案:

数据迁移上云后,就都时要参考OSS的安全白皮书做好安全存储工作。实施过程,包括认证、授权、加密、日志监控。

在容量可控、速率足够时,推荐使用在线迁移服务。当前,支持多种数据迁移方案:阿里云OSS间迁移、HTTP/HTTPS源迁移、七牛云迁移、腾讯云COS迁移、AWS S3迁移、AWS S3 Inventory 迁移、Azure Blob迁移、又拍云迁移、百度云BOS迁移、金山云KS3迁移、谷歌云GCP迁移、ECS数据到OSS的迁移、NAS数据到OSS的迁移。结合OSS的镜像回源功能,都时要平滑迁移存量数据,实现业务不中断。

OSS采用多可用区(AZ)机制,将用户的数据分散存装入 同一地域(Region)的二个可用区。当某个可用区不可用时,仍然要能保障数据的正常访问。OSS同城冗余存储提供99.9999999999%(1有一二个 9)的数据设计可靠性以及 99.995% 的服务设计可用性。

OSS的同城冗余存储要能提供机房级容灾能力。当断网、断电可能性居于灾难事件原因分析分析某个机房不可用时,仍然要能确保继续提供强一致性的服务能力,整个故障切换过程用户无感知,业务不中断、数据不丢失,都时要满足关键业务系统对于“恢复时间目标(RTO)”以及“恢复点目标(RPO)”等于0的强需求。

数据保护完善后,只能作为数据资产静静的躺在角落,就是我应该构建数据湖、挖掘数据的价值,这是企业上云最关键的目标。

开启存储空间(Bucket)版本控制内部结构后,针对数据的覆盖和删除操作可能性以历史版本的形式保存下来。通过文件(Object)的版本控制,用户在错误覆盖可能性删除 Object 后,要能将 Bucket 中存储的 Object 恢复至任意时刻的历史版本。

版本控制和数据生命周期结合可实现同类 回收站功能,防止软件错误、人为误操作、病毒攻击等逻辑错误造成的数据丢失。

跨区域克隆qq(Bucket Cross-Region Replication)是跨不同OSS数据中心(地域)的存储空间(Bucket)自动、异步克隆qq文件(Object),它会将Object的创建、更新和删除等操作从源存储空间克隆qq到不同区域的目标存储空间。

跨区域克隆qq功都时要够很好的提供Bucket跨区域容灾,或满足用户数据克隆qq的法规需求。目标Bucket中的对象是源Bucket中对象的精确副本,它们具有相同的对象名、元数据以及内容,同类 创建时间、拥有者、用户定义的元数据、Object ACL、对象内容等。

OSS产品长期为行业提供防止方案,基于数据就近防止的架构原则,卸载了相当于的算子到存储,提供了充裕的数据防止能力,典型如:

阿里云访问控制RAM(Resource Access Management)认证体系支持云账号(同类 邮箱登陆控制台)、RAM用户 (典型如使用Access Key用于开发)、临时安全令牌STS(Security Token Service)、单点登录SSO(Single Sign On)、OAuth认证,以及对象存储OSS的签名URL认证机制。

SSO支持和微软的AD(Active Directory)、Google G Suite、Okta等对接,从而都时要使用企业现有的AD账号登陆阿里云。

用户在访问 OSS 的过程中,会产生少量的访问日志。日志存储功能,可将 OSS 的访问日志,以小时为单位,按照固定的命名规则,生成有一二个 Object 写入您指定的 Bucket(目标 Bucket,Target Bucket)。通过有有哪些日志信息,可用于安全审核。

OSS监控服务提供系统基本运行状态、性能以及计量等方面的监控数据指标,日后 提供自定义报警服务,帮助跟踪请求、分析使用状态、统计业务趋势,及时发现以及诊断系统的相关问题图片。

综合企业上云的“迁、存、稳、用”的二个步骤:

如2018年迁移115网盘时,可能性数据量巨大、迁移时间短,就是选则了离线迁移的闪电立方设备形式。通过双方努力,仅仅43天就完成1150PB的数据迁移,迁移完成后115科技总经理刘睿表示:“将基础设施托付给阿里云后,115科技团队得以集中精力,聚焦顶层设计,为用户提供更好的产品体验和服务。”