经过一年奋战,小红书已把业界体量最大的数据湖0故障迁上阿里云。据统计幼女白丝,该技俩共有1500东谈主参与,迁徙数据500PB。
行为中国头部互联网公司之一,小红书月活已过3亿,其数据湖存储了昔日11年的统共原始数据,包括结构化、半结构化和非结构化数据。连年来,跟着业务的高速增长,小红书在线处理数据的需求不休增多,同期离线处理所积蓄的历史问题,也会在将来的切换中带来更多老本与风险。
国产福利小视频合集在线看为此,2023年11月,小红书发起迁云技俩——计齐整年内,把小红书的数据湖搬上阿里云。
迁徙至阿里云上后幼女白丝,数据湖可通过多个OSSBucket赈济纳入调治资源池,散伙多个Bucket分享资源池内的OSS朦拢及QPS才气。这么的流控才气在面向小红书复杂业务场景,可活泼调配资源,高效期骗朦拢性能,镌汰不同行务田户间的彼此影响。阿里云原生HDFS+DLA元数据可散伙无缝对接HadoopEMR体系,赈济元数据线性膨大才气,简陋应答小红书数百PB数据下的元数据线性增长。
较于过往业界体量最大的案例,小红书的本次迁徙的数据体量更大。
*注:任务=数据处理经过
据先容,小红书的迁云技俩阅历了三个阶段。第一步,技俩组率先处分圭臬问题,然后字据圭臬进行料理;第二步,完成料理后,技俩在2024年5月雅致干预双跑阶段。把数据拷贝到阿里云上,双方同期跑数,考据正确性与实时性;第三步,2024年8月,技俩规模双跑,干预割接阶段。阿里云团队全程在现场保险,顺利完成了割接。
2024年11月,小红书迁云技俩雅致宣告规模。在0故障的情况下,迁徙数据500PB,任务11万,参与东谈主数1500东谈主,波及部门40多个。技俩波及居品之多和数据体量之大均创下业界纪录。
蕾蕾小风
校对盛媛媛幼女白丝