喬鵬:通過智能數據編織應對數據挑戰
數據的價值與挑戰
1.數據的價值
數據的核心價值是幫助我們決策。
我們無時無刻不在決策,大到戰略決策——為一家新醫院選址,還有戰術決策——鑒別產品的目標市場或抵押貸款審批,更頻繁的是操作決策——決定患者的手術方案或患者藥物的調整。
這些決策要求不同的決策速度,傳統的數據中心已經能較好地幫助我們做戰略決策、戰術決策,甚至一些操作決策。但新的業務需求要求我們的決策速度越來越快,甚至借助機器學習自動為我們做出即時的決策,例如批準還是拒絕一筆信用卡交易或基于算法自動交易。
無論是人工決策還是基于機器學習的自動決策,決策的依據是數據。數據的速度和質量決定了決策的速度和質量。要支持決策,需要數據具有如下特征:
(1)完整 :關聯且具有完整上下文;
(2)干凈 :數據質量沒有問題;
(3)及時 :在決策點上沒有延遲。
傳統數據中心很難在及時性上滿足要求。
2.數據挑戰
數字化浪潮下,我們面臨更大的數據挑戰:
● 數據規模:數據量已經完全超出了人工處理能力。
● 數據源多樣性:數據源不再僅是數據庫,流式引擎的消息、物聯網、對象存儲......它們還帶來了越來越多模型種類的數據。
● 更多的數據孤島:更多的系統和應用被建設,進一步增加了數據孤島現象。
● 跨部門的數據不一致:統計口徑和統計時間的差異,造成財務部門統計的數據,總是和業務部門統計的數據對不上。
● 數據服務對象變化:現在業務分析師、運營數據消費者、數據工程師、數據科學家和普通人群都是服務對象。
● 部署需求的多樣性:傳統本地部署、云部署、混合部署......
而由于技術、法律、經濟性等原因,傳統的數據集中保存無以為繼......
數據庫、數據倉庫、數據湖,這些傳統的數據管理技術應對這些需求和挑戰,越來越力不從心。數據庫能保持數據的熱度(良好的數據存取速度),但支持的模型類型和數據來源有限;數據倉庫要統一數據質量與格式(Schema on Write),缺乏靈活性;數據湖可以“以原始形態保存一切數據” (Schema on Read),但各種數據進入這樣一個湖,全都變成了無法直接分析利用的冷數據!
應對之道 – 數據編織和智能數據編織
數據編織是正在興起的數據管理技術以應對數據挑戰,Gartner將其定為2022年12大戰略技術趨勢之首。
那什么是數據編織?
Gartner將數據編織定義為一種設計概念,可作為數據和連接流程的集成層(結構)。通過對現有、可發現和可推理的元數據資產進行持續分析,數據編織能夠在所有環境(包括混合云和多云平臺)中設計、部署和利用可重復使用的集成數據。
智能數據編織(Smart Data Fabric)則更進一步,在結構中直接嵌入各種分析能力,包括數據探索、商業智能、自然語言處理和機器學習,使企業可以更快、更容易地獲得全新洞察,為智能預測和規范性服務及應用提供動力。
Gartner的這個名詞解釋還是有些抽象,如何理解它?為何數據編織/智能數據編織是解決上述挑戰的利器? 如何利用現有的產品真實實現智能數據編織的落地?
InterSystems提供的智能數據編織解決方案
今天,智能數據編織(Smart Data Fabric)正被用于許多行業的實際生產中,為各種企業級、關鍵任務創新提供動力,包括場景規劃和決策支持、法規遵從、實時可見性和警報等,作為全球領先的數據技術提供商,為應對當前數據挑戰,特別通過InterSystems IRIS新一代數據平臺提供智能數據編織解決方案,整合了許多關鍵特性和能力,以滿足客戶實施智能數據編織進行數字化轉型的需求,該方案在解決數據挑戰的同時,允許現有的遺留應用和數據保持原位,最大限度地利用以前的技術投資,包括現有的數據湖和數據倉庫,而不需要“撕裂和替換”任何現有技術。
InterSystems IRIS數據編織解決方案把智能數據編織分為3個階段:
● 數據互聯互通階段:有能力實時、雙向打通各種數據源,將數據源有機編織在一起。
● 數據集成階段:對數據本身進行編織,為多模型數據提供高性能存取和轉換、加入數據安全控制、建立數據譜系、抽象為干凈和統一的語義層供數據用戶使用。
● 智能利用階段:對建立了統一語義的數據提供緊貼數據的智能利用能力,例如商業智能分析、自然語言分析、機器學習,并使這些智能增強數據編織本身。
InterSystems IRIS數據平臺在單一技術棧內提供智能數據編織的這些能力:互聯互通、數據集成、自助服務、智能分析和多云 。
傳統數據利用的是多級瀑布模式:數據從數據庫到數據湖,再到數據中心,數據大批量、高延時地在異構數據平臺間移動和拷貝。這是影響數據時效性、一致性的主要原因。所以InterSystems智能數據編織第一就要解決這個問題,而解決之道就是互聯互通和數據集成。
1.互聯互通
因為數據源和數據模型的多樣性,傳統的ETL在能力和時效性上都已不能滿足需求,需要更完整的互聯互通能力。長期以來,InterSystems是互操作技術的領導者,它提供各種適配器實時接入各種數據源,例如流式處理引擎Kafka,并對遺留系統進行現代化,即便有很多遺留系統作為數據源,依然可以通過它將其數據模型多態化和數據服務現代化。
2.數據集成
數據集成(Integration)不追求將數據放在一起,而是要建立數據間的準確關聯,建立具有連續上下文的全息數據,甚至豐富數據。InterSystems提供:
(1)多模型
面對多元數據,Gartner表示,要想成功利用數據編織,企業必須確保數據編織能夠動態地(通過元數據驅動設計)支持不同數據交付風格的組合,以支持特定的用例。
InterSystems的多模型數據建模和保存能力,讓不同的數據以最適合的模型進行操作,它支持原生的對象、表、鍵值對和JSON文檔。
(2)多語言
如何操作多模型的數據?每個數據用戶都有熟悉或適合其用途的語言來使用數據,例如很多場景下,SQL是最簡單的使用數據的語言。InterSystems讓用戶可以用SQL操作一切數據,哪怕它是以鍵值對建模和保存的。
(3)數據轉換
不同的數據用戶希望得到不同結構的數據。InterSystems提供圖形化的高效數據轉換工具,為用戶構建干凈的、單一可信的數據。
3.自助服務
如何發現、探索、推理數據編織平臺中的數據?需要借助統一的語義和自助的服務能力。
(1)統一語義
為了數據完整性,無論是數據倉庫還是數據湖,都將數據中心化存儲。這造成了很多數據障礙:數據的時效性低、數據的質量參差不齊、數據需求嚴重依賴IT去清洗關聯等等。
InterSystems的自適應分析是一個統一的、抽象的語義層,通過建立虛擬/邏輯數據分析立方體,用戶可以使用SQL或BI工具訪問這個語義層,而自適應分析自動使用SQL訪問后臺的多InterSystems IRIS數據平臺實例獲得數據和分析結果,不需要將數據集中保存到一起。
數據無需集中,因此無需ETL,沒有數據抽取拷貝的時間成本開銷,提供高時效性的數據;而抽象語義層將多數據源的數據建立邏輯關聯,向用戶提供干凈、完整的語義上下文。
(2)行業語義級的數據編織
醫療健康行業面臨相較其它行業更復雜的行業數據,在現實業務中要應對不同的語義表達。編織不同語義的數據源,將數據抽象為非標準語義,這會為后面的數據價值利用增加障礙。
FHIR建立統一行業語義的行業數據內容標準、利用標準行業術語和標識符、定義統一的傳輸標準、并逐步建立隱私和安全標準,讓使用行業語義編織數據成為可能。
InterSystems支持所有FHIR的交互范式,提供FHIR服務器和FHIR資源倉庫,并通過FHIR SQL構建器,建立基于SQL的FHIR數據訪問能力,用最簡單的數據操作支持BI/AI。通過FHIR來搭建具有統一行業語義和生態的數據編織平臺。
(3)自助服務
長久以來,由于數據源和數據本身的復雜性,專業IT用戶把持著數據的使用,商業用戶極度依賴于專業用戶才能獲取、分析和利用數據。
借助統一語義層和對標準的支持,InterSystems讓商業用戶使用自己熟悉的工具和語言,例如SQL、BI工具和API來探索數據、操作數據和分析數據。
4.智能分析
為數據編織增加智能, InterSystems提供開放的智能分析能力。包括嵌入平臺的機器學習、自然語言分析、商業智能特性,對第三方工具和生態的支持,以及對標準的支持——MDX、UIMA、PMML......
InterSystems提供全SQL操作方式的自動化機器學習,并允許使用第三方的自動化機器學習后臺,如DataRobot,從而避免學習不同的API,用最簡單的SQL就可以獲得豐富的機器學習能力:
5.多云
數據編織平臺要能支持所有主要的開發和部署環境,使開發人員和運營團隊能夠在他們選擇的環境中工作。并與現有的基礎設施和最佳技術無縫集成,支持最廣泛的客戶環境和應用要求。
公共云、私有云、本地、混合、裸機和虛擬機環境,InterSystems支持所有部署選項,且都只需要一個API,而不需要對你的應用程序進行修改。
總結
InterSystems的智能數據編織解決方案通過對數據源、數據的編織,避免多級瀑布式的大規模、高延遲的數據拷貝。構建抽象的統一語義層,并借助行業標準語義,建立基于標準的數據編織平臺,為用戶提供簡單易用的數據探索和利用能力。利用全面的智能分析能力提升數據質量和數據價值,并降低數據利用的難度。多云的架構確保了對最廣泛的客戶環境和應用要求的支持,為數據編織的實施部署鋪平了道路。
掃描下方圖片二維碼了解更多智能數據編織的概念和應用
作者簡介
喬鵬,InterSystems技術總監。自2004年加入InterSystems(系聯軟件),歷任售前工程師、技術經理、技術總監等職務,精通公司旗下Caché數據庫,Ensemble集成平臺,HealthShare統一健康檔案,IRIS數據平臺等明星產品,對于數據庫、互操作性平臺、數據中臺、醫療相關標準以及集成平臺解決方案,有著深刻的理解和十多年的行業經驗,參與主導過百余家醫院或者區域平臺的信息化建設;同時他能夠對CDR、臨床決策支持、商業智能、機器學習等數據利用產品和方案有廣泛的認識和豐富的實踐經驗。
上一篇: 醫院有沒有信息安全建設最低配置要求?|醫院信息化百問百答
下一篇: 郭揚帆:采樣,HIT人也是專業的