安全新視角:機器學習在網(wǎng)絡(luò)安全異常檢測中的示范應用
2024年的國家網(wǎng)絡(luò)安全宣傳周已于9月9日至15日在全國范圍內(nèi)統(tǒng)一開展,今年的活動主題是“網(wǎng)絡(luò)安全為人民,網(wǎng)絡(luò)安全靠人民”。在醫(yī)療行業(yè),網(wǎng)絡(luò)安全的重要性尤為突出。《醫(yī)療衛(wèi)生機構(gòu)網(wǎng)絡(luò)安全管理辦法》明確了醫(yī)療衛(wèi)生機構(gòu)在網(wǎng)絡(luò)安全管理中的主體責任,要求建立健全的網(wǎng)絡(luò)安全管理制度和責任體系,加強數(shù)據(jù)安全管理,并對關(guān)鍵信息基礎(chǔ)設(shè)施運營者提出了安全保護計劃的要求。這些措施旨在保障醫(yī)療數(shù)據(jù)安全和個人隱私保護,同時提升醫(yī)療衛(wèi)生機構(gòu)的網(wǎng)絡(luò)安全防護能力。
隨著技術(shù)的迅猛發(fā)展,人工智能和機器學習(Machine Learning)正在成為網(wǎng)絡(luò)安全防護策略的重要組成部分,通過與傳統(tǒng)的網(wǎng)絡(luò)安全措施相結(jié)合,共同構(gòu)建了一個更為主動和智能化的網(wǎng)絡(luò)安全防護體系。
自動化水平:傳統(tǒng)網(wǎng)絡(luò)安全防護主要依賴于人工監(jiān)控與分析,而機器學習能夠?qū)崿F(xiàn)自動化的威脅檢測與快速響應,這不僅減少了對人工的依賴,也在一定程度上緩解了網(wǎng)安專業(yè)人才的短缺問題,同時顯著提升了網(wǎng)絡(luò)安全防護的效率。
響應速度:機器學習能夠?qū)崟r處理和分析海量數(shù)據(jù),通過學習正常網(wǎng)絡(luò)行為的模式,迅速識別并響應安全威脅,相較于傳統(tǒng)模式,后者往往需要更長的時間來處理和響應。
準確性:通過分析歷史數(shù)據(jù)和學習正常行為模式,機器學習能夠更精確地識別和預測安全威脅,有效減少誤報和漏報,同時提升安全團隊的工作效率。
適應性:機器學習能夠適應不斷演變的網(wǎng)絡(luò)環(huán)境和攻擊手段,從而有效增強網(wǎng)絡(luò)安全防護的防御能力,而傳統(tǒng)模式可能難以應對新型攻擊和威脅。
資源利用:機器學習的自動化處理能力使得資源分配更加高效,減少了人力資源的消耗,從而提高了網(wǎng)絡(luò)安全運維的整體效率。
綜上所述,機器學習在網(wǎng)絡(luò)安全領(lǐng)域的應用,不僅提升了網(wǎng)絡(luò)安全防護的自動化、響應速度、準確性和適應性,還優(yōu)化了資源利用,為網(wǎng)絡(luò)安全防護帶來了革命性的變革。由此,這種新策略應用也變得非常廣泛,比如利用機器學習模型分析軟件的靜態(tài)和動態(tài)特征,可以快速識別并分類惡意軟件,有效防止其傳播;網(wǎng)絡(luò)入侵檢測系統(tǒng)(IDS)通過深度分析網(wǎng)絡(luò)流量數(shù)據(jù),使用如孤立森林算法的模型來識別異常流量,及時發(fā)現(xiàn)并阻止網(wǎng)絡(luò)攻擊;采用用戶和實體行為分析(UEBA)技術(shù)監(jiān)控用戶行為,通過對比正常行為模式與當前行為模式,識別出可疑或未經(jīng)授權(quán)的活動,保護敏感數(shù)據(jù)不被泄露;利用機器學習模型分析網(wǎng)絡(luò)流量、系統(tǒng)日志和用戶行為模式,識別異常并標記潛在的安全威脅;隨著云計算的普及,機器學習技術(shù)在云環(huán)境中的實施有助于識別和解決數(shù)字異常威脅等。
本文主要通過分享兩例機器學習算法在數(shù)據(jù)異常檢測和網(wǎng)絡(luò)流量監(jiān)控方面,以簡單直觀的可視化結(jié)果,說明機器學習能夠從海量數(shù)據(jù)中學習并識別潛在的模式和異常行為,對安全威脅進行檢測和防御。這種技術(shù)的應用,使得網(wǎng)絡(luò)安全防護能夠更加主動和智能化,提高了網(wǎng)絡(luò)安全防護的整體效率和效果。
在實際應用中,網(wǎng)絡(luò)異常流量數(shù)據(jù)集通常可從網(wǎng)絡(luò)監(jiān)控工具、流量檢測軟件、硬件探針或無線傳感器網(wǎng)絡(luò)中獲取,主要包含了正常流量和各種類型的攻擊流量,如DDos、BotNet、PortScan等,這些數(shù)據(jù)共同支持了異常檢測任務(wù),幫助識別和處理網(wǎng)絡(luò)中的異常行為。數(shù)據(jù)集中包括了Traffic Volume(流量總量)和Connection Rate(連接速率)、Packet Size(數(shù)據(jù)包大小)、Data Transfer Rate(數(shù)據(jù)傳輸速率)、Session Duration(會話持續(xù)時間)、Port Activity(特定端口的活動)等多個特征。
案例一決策樹算法在數(shù)據(jù)異常檢測中的應用
該案例首先使用IsolationForest進行異常檢測,這是一種基于集成學習的異常檢測算法,它通過構(gòu)建多個決策樹來隔離觀測值。在訓練過程中,它嘗試找到那些容易隔離的數(shù)據(jù)點,這些數(shù)據(jù)點通常是異常值,異常值會被標記為-1。再由決策樹DecisionTreeClassifier通過一系列的問題將數(shù)據(jù)分類,用1表示一類正常的數(shù)據(jù)點。每個問題都是基于數(shù)據(jù)的一個特征,這些“問題”實際上是決策樹在內(nèi)部節(jié)點進行的屬性測試,它們基于數(shù)據(jù)的特征來決定數(shù)據(jù)應該被分到哪個子節(jié)點。通過這種方式,決策樹能夠識別出數(shù)據(jù)中的異常模式。最后通過計算異常檢測的準確率來評估模型性能。
本案例依次輸出:繪制散點圖,按顏色不同標注出異常點和正常點,我們可以直觀地看到正常數(shù)據(jù)點和異常數(shù)據(jù)點的分布情況;繪制混淆矩陣熱力圖,我們計算了被正確標記為異常值的比例,來評估模型的特異性、敏感性和總體準確性;繪制ROC曲線和AUC分數(shù)圖,以評估模型在不同閾值下的性能。最后一圖是該案例的部分代碼截圖。本作者也同時實現(xiàn)了SVM(向量機)、GBT(梯度提升樹)和KNN(K最近鄰)等算法,各算法均有其優(yōu)勢,需在具體應用場景中再進行選擇。
案例二隨機森林算法在網(wǎng)絡(luò)流量異常檢測中的應用
作為集成學習方法的一種,隨機森林算法通過構(gòu)建多個決策樹并結(jié)合它們的預測結(jié)果,來提高整體的預測準確性。隨機森林能夠處理高維數(shù)據(jù),并且對于噪聲和異常值具有較好的魯棒性。通過分析網(wǎng)絡(luò)流量的特征,該算法可以有效識別出異常流量,如異常的數(shù)據(jù)傳輸峰值或不尋常的通信協(xié)議使用,從而及時發(fā)現(xiàn)并阻止惡意軟件的傳播或網(wǎng)絡(luò)攻擊。
本案例運行結(jié)果,主要通過設(shè)定閾值、對計算出的異常分值進行判定是否異常,依次展示散點圖(其中正常值按分值熱力圖顯示、異常值標注為特殊標志,且異常值大于0.5)、及異常IP地址輸出,便于網(wǎng)絡(luò)安全員主動進行識別,盡早找出威脅隱患。以下是該案例的部分代碼截圖。
綜上所述,機器學習在網(wǎng)絡(luò)安全領(lǐng)域的應用案例充分展現(xiàn)了其在提升檢測精度、減少誤報以及自動化處理方面的顯著潛力。隨著模型的持續(xù)優(yōu)化和調(diào)整,機器學習在網(wǎng)絡(luò)安全中的作用日益凸顯,為防護措施提供更為堅實的支撐。然而,這一領(lǐng)域也面臨著諸多挑戰(zhàn),包括數(shù)據(jù)質(zhì)量的不足、環(huán)境的動態(tài)性和不確定性、攻擊者的隱蔽性,以及網(wǎng)絡(luò)結(jié)構(gòu)的復雜性。為了有效應對這些挑戰(zhàn),我們必須著力提升數(shù)據(jù)質(zhì)量、增強模型的魯棒性,并加強隱私保護措施。通過這些綜合策略的實施,機器學習將在網(wǎng)絡(luò)安全的未來發(fā)展中發(fā)揮更加關(guān)鍵的作用。
作者簡介
安志萍,高級工程師,在職博士學歷。CHIMA委員,中國研究型醫(yī)院學會醫(yī)療信息化分會理事,中國醫(yī)療保健國際交流促進會醫(yī)學工程與信息學分會委員,中國醫(yī)學裝備協(xié)會醫(yī)院物聯(lián)網(wǎng)分會委員。長期從事醫(yī)院信息化建設(shè)工作。作者觀點純屬與同行做技術(shù)交流,歡迎批評指正。