自動化指標加工
基于“操作即SQL”的理念,通過簡單點擊配置,即可自動生成批量指標加工的SQL,通過分布式調度引擎執行,SQL執行效率為傳統模式的5倍以上。
平臺支持通過點擊式頁面簡單的配置,即可自動化地生成海量數據指標加工的SQL,并且SQL的語法支持了市面上絕大部分的常用數據庫,包括mysql、oracle、hive、GreenPlum、sybase、odps、sparksql、FushionInsight、inceptor等十幾種數據庫SQL語法。
平臺的數據加工、分析等數據操作,均可通過內置的分布式調度系統自動地完成任務的調度。支持常見的調度方式,包括手工觸發的單次執行、以及靈活的定時調度。
平臺生成的SQL,是通過業務化的指標模板配置形成,無需深入的技術基礎、了解業務的人員即可完成SQL生成邏輯的配置。
通過去代碼化的方式、點擊式即可地完成建模數據集的常見特征工程,支持的特征工程處理包括歸一化、異常值修正、缺失值填補、標準化、WOE編碼、onehot、分箱、自定義衍生等。
數值型變量是否異常常常通過幾種方式進行篩選,分別是最大值大于某個值,最小值小于某個值,極差大于某個值,1%分位數小于某個值,99%分位數大于某個值。
數值型變量是否異常常常通過幾種方式進行篩選,分別是最大值大于某個值,最小值小于某個值,極差大于某個值,1%分位數小于某個值,99%分位數大于某個值。
對于數值型變量,有基于均值、基于最大值、基于最小值、零、給予中位數、基于眾數、自定義等幾種方式進行填補。對于類別型變量,僅支持眾數、自定義兩種方式;眾數是當前數據出現次數最多的那個值作為填補值;而自定義則可定義任意的填補值。
針對不同數據提供的自動化、批量指標加工的模板。通過算子的批量加工規則的配置,自動完成批量指標的輸出。
對數據的時間字段往前追溯不同時間跨度進行數據分片,并根據不同的組合規則,對不同分片的數據進行衍生運算,包括與前一個時間分片的差、比率等。
統計不同類型業務量的匯總值。例如:網銀的交易總額、手機銀行的交易總額、現金的交易總額等
統計不同類型業務量(筆數、金額)占全部業務量的比例。例如:網銀的交易金額的占比、網銀的交易筆數占比、手機銀行的交易金額占比、網銀的交易筆數占比等
數據血緣,主要解決數據應用后數據有誤過程追查、數據處理過程回溯、數據來源追溯等方面的問題;平臺主要支持以下幾種維度的數據血緣。
支持表級別的來源追溯、數據處理過程、調度來源、調度依賴及過程產出代碼回溯;
支持字段級別的來源追溯、數據處理過程、調度來源、調度依賴及過程產出代碼回溯;
支持記錄級別的來源追溯、數據處理過程、調度來源、調度依賴及過程產出代碼回溯;
業務化數據處理
平臺支持對一代、二代央行征信的自動化解析與衍生、以及衍生變量的自動化分析、監控,可生成300+個基礎變量、10000+個衍生變量,并可支持進一步的定制化變量衍生需求。在數據處理模式上,支持批處理調度、實時服務兩種模式,同步滿足離線訓練與上線的系統需要。
平臺提供了對一代和二代征信數據自動化解析,以數據表的形式存入目標數據庫。整個解析過程自動化完成,并且一代二代征信入庫后采用統一標準的數據表和字段名,自動實現一代二代征信字段級的映射關系。
對于平臺接入的征信數據,可在平臺的通過模板功能,一鍵完成征信指標的加工,征信指標數目可達10000多個。
平臺的征信變量衍生,可提供標準化的API實時服務,支持對征信變量解析與衍生的單筆數據提供毫秒級實時加工。
平臺支持對標準的第三方JSON數據進行自動化解析與衍生、并提供自動化分析、監控,可生成智能優化后的基礎變量、以及衍生變量。在數據處理模式上,支持批處理調度、實時服務兩種模式,同步滿足離線訓練與上線的系統需要。
平臺對json數據的自動化解析,以數據表的形式存入目標數據庫。整個解析過程自動化完成,并且入庫后提供詳細的字段級映射關系。
對于平臺接入的json數據,可在平臺的通過模板功能,一鍵完成特征的加工,數千個。
json變量的解析與衍生,平臺可提供標準化的API實時服務,支持對變量解析與衍生的單筆數據提供毫秒級實時加工。
平臺對用戶最近X個月的交易流水數據進行變量衍生,最多可生成近數千個衍生變量。對銀行流水從時間段”、“渠道類型”、“業務類型”等多個維度,分類統計對應的交易總額(S)/交易次數/最大金額/最小金額/平均金額/增量量/月度占比,基本覆蓋了銀行流水交易行為分析與建模常用的特征;
平臺對稅務數據進行自動化的稅務模板加工,覆蓋稅務數據常見的指標。
流批、實時一體化
平臺可將數據加工流一鍵發布為實時服務,對外提供毫秒級、支持分布式拓展的實時數據加工api。
平臺支持調度時間的靈活設置。調度的時間設置包括起止時間、調度運行頻率(每月/周/天)、運行時點設置。還支持按cron表達式的運行方式。
平臺可將數據加工流一鍵轉為實時SDK包,提供毫秒級的實時數據加工,完成數據加工的快速上線。目前實時SDK支持的語言有:JAVA、PYTHON、Flink、Kafka等
平臺可將數據加工流一鍵轉為批量SDK包,提供批量數據加工,完成批量數據的靈活上線。目前離線SDK支持的語言有:MYSQL、ORACLE、Greenplum、SAS、Hive、Sparksql等
數據監控與預警
特征監控主要監控持續產出數據集的過程中,特征的分布波動,以及對于建模應用場景下的性能指標波動。
主要包括特征的CSI、均值、極值等
主要包括IV值、相關系數、卡方、T檢驗等
數據質量模塊用于把控數據產出的質量,包括數據缺失、數據格式、數據量、關聯數據校驗等方面。
如檢查一個表的字段是否為空。
如檢查一個表的一個字段是否在枚舉值內。
如檢查一個表的一個字段的值是否在范圍內。
如檢查一個表的一個字段是否符合正則規則。
過監控預警模塊,可支持特征統計量的規則監控,并產出預警信息,觸發預警處置功能,通過OA/短信等多種渠道,將信息傳遞到指定的用戶中。
可設置預警條件用于監控,預警條件主要來自特征統計量和數據質量的波動;如特征CSI>0.2,年齡<=120。
在定義預警時,需要配置達到預警條件時,該如何處理的方式;在數據產出的過程中,當觸達監控規則時,會自動觸發預警處置,將預警信息傳達給指定用戶。
特征庫管理
跨源異構的統一平臺
平臺支持多種數據源的接入,用于數據的讀取、加工、存儲。
平臺支持如MYSQL、ORACLE、GreenPlum、Hive、SFTP、Spark、sybase、sqlServer、Hbase、華為FushionInght、阿里Maxcompute、星環inceptor等主流數據庫。對于關系型數據庫,平臺具有很好的接入能力。在關系型數據庫上支持數據探索、數據處理和數據分析。
如Excel、Csv、Txt等,平臺提供作為數據源導入的功能。文本類數據源也支持進行各類統計和分析,支持對文本內的指標進行交互分析或數據清洗。
如JSON、XML、央行征信html等,平臺也能進行解析并導入數據庫作為數據源。支持對解析結構固化保留,并支持增量解析和導入數據庫,實現json解析上的統一。
