在貝殼找房這樣一家業務覆蓋全國、數據規模龐大且結構復雜的居住服務科技平臺,高效、可靠的數據處理是業務決策、產品智能化和精細化運營的基石。貝殼的數據治理中臺,特別是其核心的數據處理服務,經過多年的迭代與實踐,已形成一套體系化的解決方案,旨在解決數據孤島、質量不一、處理效率低下等經典難題,為全公司提供統一、可信、敏捷的數據服務。
一、數據處理服務的核心定位與挑戰
貝殼的數據處理服務作為數據中臺的核心引擎,其核心定位是:對來自各業務線(新房、二手房、租賃、裝修、金融等)的異構、海量原始數據進行采集、清洗、加工、整合與建模,最終產出標準化、資產化的數據產品,服務于數據分析、用戶畫像、智能推薦、風控決策等多種業務場景。
面臨的挑戰是多維度的:
- 數據源異構且動態變化:數百個業務系統、日志、第三方數據,格式不一,且業務變更頻繁。
- 規模與性能要求高:日處理數據量達PB級,需保證T+1甚至實時數據產出的時效性。
- 質量與一致性是生命線:房源、客源、交易等核心數據的準確性直接關系到業務可信度。
- 敏捷響應業務需求:業務探索和創新速度快,數據處理流程需要靈活可配置,支持快速迭代。
二、數據處理服務的架構與實踐
貝殼數據處理服務構建了一個分層、解耦的體系,主要包含以下關鍵層次:
1. 統一接入與緩沖層
- 建立了統一的數據接入平臺,支持DB日志解析、消息隊列(如Kafka)、API拉取、文件傳輸等多種接入方式。
- 所有原始數據首先進入數據湖(基于HDFS/Object Storage),實現原始數據的永久存儲與回溯,為批流一體處理奠定基礎。
2. 核心計算與調度引擎層
- 批處理:以成熟的Hadoop/Spark生態為核心,處理T+1的ETL任務。通過自研的可視化任務開發平臺,將復雜的SQL和代碼任務配置化、模板化,降低了開發門檻。
- 流處理:引入Flink構建實時計算能力,用于實時指標計算、事件監聽與實時特征生成,滿足風控、實時推薦等場景。
- 統一調度系統:自研的調度中心負責管理數以萬計的數據處理任務,具備強大的依賴解析、優先級調度、失敗重試與智能報警能力,保障了任務鏈的穩定運行。
3. 數據質量與血緣治理層(核心保障)
- 質量監控體系:在關鍵的數據處理節點(如ODS->DWD->DWS)植入質量檢查規則。規則包括:非空校驗、唯一性校驗、值域校驗、一致性校驗、波動率監控等。一旦觸發閾值,系統自動告警并阻斷下游任務,防止“臟數據”擴散。
- 全鏈路數據血緣:自動采集并可視化從數據接入到最終數據產品(報表、API)的全鏈路血緣關系。這極大地提升了問題排查效率(快速定位影響范圍)、變更影響評估和數據資產的可理解性。
4. 數據資產與服務化層
- 經過標準化處理的數據,按照維度建模等理論,分層存儲于數據倉庫(DWD明細層、DWS匯總層、DIM維度層、ADS應用層)。
- 通過統一數據服務(UDAS),將數據表、指標、模型以API、數據文件、消息等多種形式發布出去,供業務系統、BI工具、算法平臺調用,實現了數據資產的可復用與閉環。
三、關鍵實踐與成效
1. 標準化與模型驅動
定義了全公司統一的業務實體標準(如“房源”、“客源”、“經紀人”)和指標體系。所有數據處理均圍繞這些標準模型展開,確保了數據在跨業務線使用時口徑一致、可比。
2. 平臺化與自助化
將常用的數據處理邏輯(如去重、拉鏈、SCD2處理等)沉淀為平臺組件。業務和數據分析師可以通過可視化界面,以“搭積木”的方式完成數據清洗和輕度匯總,大幅提升了效率,釋放了數據工程師的生產力。
3. 成本與效能優化
通過計算存儲分離、冷熱數據分層、作業運行時優化(如Spark參數調優)、小文件合并等技術手段,在數據量持續增長的情況下,有效控制了計算和存儲成本的增速。
4. 成效顯著
- 數據產出時效性:核心T+1報表交付時間從過去的數小時縮短至穩定在1小時內。
- 數據質量:關鍵業務數據的質量檢核通過率提升至99.9%以上,數據問題引發的業務投訴大幅下降。
- 開發效率:通過平臺化,簡單數據需求的交付周期從天級縮短至小時級。
- 業務價值:為“樓盤字典”(貝殼核心的真實房源數據庫)、ACN合作網絡效率分析、經紀人信用分、VR看房智能導覽等核心業務提供了堅實、可信的數據支撐。
四、未來展望
貝殼的數據處理服務仍在持續進化,未來的重點將集中在:
- 智能化:引入AI進行任務智能調優、異常自動檢測與根因分析、數據質量問題的自動修復。
- 實時化深化:拓展實時數據處理場景,構建更完善的實時數據倉庫,滿足更敏捷的業務決策。
- 云原生與一體化:向云原生架構演進,實現更極致的彈性與資源利用率;進一步融合批流,實現真正意義上的一體化數據處理體驗。
貝殼數據處理服務的實踐表明,構建一個強大的數據治理中臺,技術架構是骨架,而標準化、平臺化、質量內建和全鏈路可觀測才是其靈魂。它不僅是技術的整合,更是將數據治理理念深度融入每一個數據處理環節,從而將原始數據有序地轉化為驅動業務增長的強大資產。