【醫(yī)院信息系統(tǒng)典型故障案例解析】磁盤條帶化及隊(duì)列深度參數(shù)調(diào)優(yōu)
《醫(yī)院信息系統(tǒng)典型故障案例解析》一書收集整理了53個(gè)醫(yī)院信息安全典型案例,內(nèi)容涉及基礎(chǔ)設(shè)施、網(wǎng)絡(luò)設(shè)備、主機(jī)應(yīng)用系統(tǒng)、數(shù)據(jù)庫、安全設(shè)備、虛擬化等各個(gè)方面。該書在CHIMA 2019大會(huì)發(fā)布后即受到醫(yī)療信息化同仁的一致好評(píng)。現(xiàn)CHIMA加印了第二版,同時(shí)在公眾號(hào)發(fā)布數(shù)期典型案例,為大家分享信息安全事故經(jīng)驗(yàn),避免事故重現(xiàn),共建醫(yī)院信息安全網(wǎng)絡(luò)。
【案例概述】
案例關(guān)鍵字:AIX;條帶化;隊(duì)列深度;參數(shù)調(diào)優(yōu)
系統(tǒng)的底層設(shè)計(jì)十分重要,很多IT系統(tǒng)建設(shè)項(xiàng)目往往只關(guān)注項(xiàng)目上層應(yīng)用開發(fā)及上線而忽略了系統(tǒng)底層的規(guī)劃與設(shè)計(jì),如底層存儲(chǔ)架構(gòu)設(shè)計(jì)及參數(shù)設(shè)置的合理性,這將直接影響上層應(yīng)用IO性能而導(dǎo)致不可逆的應(yīng)用瓶頸,往往需要推倒系統(tǒng)后重來才能根本解決問題,下面我們用一個(gè)案例來簡要說明一下。
【案例還原】
小L是某醫(yī)院資深運(yùn)維工程師,最近他正在為他所在醫(yī)院的某個(gè)新上線的系統(tǒng)“捉急”。該系統(tǒng)最近應(yīng)用一直報(bào)卡、慢,特別是業(yè)務(wù)高峰期,應(yīng)用反應(yīng)特別慢,某些操作可能要數(shù)十秒乃至分鐘級(jí)才能有反饋,極大影響了業(yè)務(wù)。經(jīng)過查詢分析后發(fā)現(xiàn),該系統(tǒng)的磁盤IO持續(xù)為100%,那為什么IO會(huì)如此高?讓我們深入剖析一下。
該院該系統(tǒng)使用的操作系統(tǒng)是AIX 6.1,配套的存儲(chǔ)是XIV,該系統(tǒng)從XIV分配了4個(gè)lun ,AIX操作系統(tǒng)識(shí)別為hdisk2、hdisk3、hdisk4、hdisk5,并將這4塊hdisk一起分配給了一個(gè)oradata的vg,而這個(gè)vg分配了lv_data的lv給數(shù)據(jù)庫作為數(shù)據(jù)文件的容器,通過nmon監(jiān)控發(fā)現(xiàn),4塊hdisk的磁盤,只有hdisk2為100%,而其它hdisk為空閑較多,那為什么磁盤工作的時(shí)候沒有平衡負(fù)載呢?翻看回原來該系統(tǒng)的實(shí)施文檔發(fā)現(xiàn),當(dāng)時(shí)創(chuàng)建lv的時(shí)候用的命令如下:
經(jīng)查發(fā)現(xiàn),原來創(chuàng)建lv的時(shí)候未加入-s的參數(shù),未對(duì)lv進(jìn)行條帶化,故導(dǎo)致磁盤hdisk無法真正負(fù)載工作所致。而且經(jīng)查詢,磁盤參數(shù)的關(guān)鍵參數(shù)隊(duì)列深度queue_depth為默認(rèn)值1,詳詢?cè)擁?xiàng)目當(dāng)時(shí)的實(shí)施工程師小W,得到的回復(fù)是“因?yàn)榇鎯?chǔ)XIV是全局打散的,已經(jīng)底層做過條帶化,無需在系統(tǒng)層面再做條帶化,故而沒有加-s參數(shù),至于磁盤隊(duì)列深度參數(shù),一般是默認(rèn)的不修改”。
小L也是認(rèn)死理的,經(jīng)過數(shù)據(jù)庫和系統(tǒng)的全面分析,認(rèn)定肯定是lv條帶化及磁盤隊(duì)列深度參數(shù)設(shè)置出了問題,故而在XIV重新分配了測試的lun。小L對(duì)比了做條帶化和不做條帶化的IO區(qū)別以及修改隊(duì)列參數(shù)值和不修改隊(duì)列參數(shù)值的區(qū)別,很明顯,做過條帶化以及把隊(duì)列深度值修改為256的IO性能有質(zhì)的飛越,這也讓小L更有底氣。最后小L重新部署了環(huán)境,在創(chuàng)建lv的時(shí)候加入了-s 1M的參數(shù)對(duì)lv進(jìn)行條帶化,并且修改磁盤隊(duì)列深度參數(shù)queue_depth為256,并在上面重新遷移數(shù)據(jù)庫后,業(yè)務(wù)恢復(fù)正常。
【案例總結(jié)】
1.關(guān)鍵的底層架構(gòu)一定要進(jìn)行合理設(shè)計(jì),一些關(guān)鍵底層參數(shù)可以在系統(tǒng)上線前進(jìn)行測試,使得底層物理架構(gòu)環(huán)境最優(yōu)化,免去推倒重來的麻煩;
2.系統(tǒng)項(xiàng)目實(shí)施的時(shí)候,一定要留存項(xiàng)目實(shí)施的所有關(guān)鍵文檔,方便在出問題的時(shí)候,對(duì)一些關(guān)鍵操作進(jìn)行查詢,保障在出問題的時(shí)刻能最快速的進(jìn)行處理;
3.項(xiàng)目實(shí)施人員技術(shù)良莠不齊,很多實(shí)施人員的經(jīng)驗(yàn)也不足,故在項(xiàng)目實(shí)施階段,應(yīng)特別關(guān)注核心流程核心操作的進(jìn)展,對(duì)事關(guān)項(xiàng)目骨干的架構(gòu)應(yīng)開會(huì)討論,集思廣益,對(duì)一些產(chǎn)品如存儲(chǔ)等的特點(diǎn)要刨根問底,避免實(shí)施過程中的想當(dāng)然。
本文選自《醫(yī)院信息系統(tǒng)典型故障案例解析》
主 編 傅昊陽
副主編 馬麗明 賀嘉嘉 高峰
近期活動(dòng)推薦:醫(yī)院數(shù)據(jù)安全和數(shù)據(jù)治理論壇
點(diǎn)擊以下圖片可直接購買:《醫(yī)院網(wǎng)絡(luò)安全等級(jí)保護(hù)(2.0)實(shí)施指南》
更多醫(yī)療信息相關(guān)書籍請(qǐng)點(diǎn)擊查看