搜尋此網誌

2024年7月20日星期六

Single Point of Failure



周五(19日)下午,使用微軟Windows系統的各行各業用戶電腦屏幕出現「藍屏死機」畫面,影響遍及全世界,幾乎全部西方國家一同中招,美國、英國、德國影響尤其嚴重,全球數以千計航班取消、銀行、連鎖零售店、醫療都大受影響。根據BBC報道,英國國民保健署(NHS)運作近乎停頓,只有緊急手術才可以進行,美國911中心無法運作,如果遇到重大危機或大型意外事故,只因網絡事故而無法及時處理,這是無法接受的。

當然,軟件間中有bug是無可避免,但現在是因單一的系統設計應用,造成全球各行各業電腦一齊死機,甚至影響911中心、NHS(醫療)無法運作,這會導致重大危機或人命傷亡,後果不堪設想。

根據報道,Windows全球大死機的原因是其網絡安全供應商CrowdStrike進行自動更新時出錯,世界各地的Windows 系統無法運行crowdstrike 的保安軟件而引發大規模死機。

CrowdStrike是一間網絡保安巨頭公司,其軟件產品Crowdstrike Falcon 採用端點監察及回應威脅(Endpoint Detection and Threat Response or EDTR),是一種端點安全解決方案,以持續監控終端使用者裝置,監察及應對勒索軟體和惡意軟體等網絡威脅。如果大家還記得俄羅斯防毒軟件Kaspersky,也是這類產品,但由於現時網絡保安涉及持續監控終端使用者裝置,今時今日已不可能使用Kaspersky了。

今次全球大規模藍屏當機,每次重啟都非常麻煩,因為維修時要人手進入save mode進行處理,再而可能需要重啟數次,以現在全球這麼大數量的電腦,回復正常都需要不短時間。

雖然Crowdstrike更新時出事是主因,但Microsoft 系統把關不力亦是責無旁貸的。我們必須從事件查找源頭問題,才可避免下次出現同樣問題。

回想起以前軟件bug的影響,最多只是個別銀行及分行一齊出現問題、單一航空公司電腦系統故障、又或者某政府部門電腦系統故障,轉而人手操作,為何bug的問題由以前個別機構及對應方法可由人手處理,發展至今時今日21世紀網絡經濟已發展成熟,但bug的問題嚴重至影響全球各行各業,只要是Windows系統用戶,便會一齊藍屏死機?而且是無得個別機構系統處理,而是要等Crowdstrike提供方案處理?

因為這次事件不單是軟件bug的問題,更大的問題是系統的設計架構。此話從何說起?從整體系統的設計來看,微軟公司是單一的供應商,client 是世界各地各行各業的公司、政府醫療、政府部門、航空等涉及數以萬計的電腦,當電腦無法運行crowdstrike 的保安軟件而導致行微軟系統的電腦死機,涉及範圍是全球使用微軟windows 的電腦,因此微軟其實是single point of failure ,以系統的風險管理而言,這樣的系統架構是不能接受。

或者換個角度說,假設是iPhone 的iOS 問題,如果更新後引發全球的iPhone 鎖機,無法重啟,這造成single point of failure ,也是不可接受的。

我一直推崇去中心化系統,曾經有人話去中心化只是意義大於實際網絡安全,他認為去中心化只是crypto 的炒作藉口。而事實上,去中心化系統的設計架構是以全球電腦節點網絡運作,節點是server side 也是client side, 因此當一間公司死機,或甚至某一區的電腦節點一齊死機,亦不會導致全球電腦節點及整個網絡無法運作,因此去中心化系統的優勢是沒有single point of failure, 從系統的風險管理角度而言是更安全的網絡系統。



或者我們會問為何今次香港政府沒有被牽涉入微軟全球死機事故,這可能因為政府意識到除時被美國政府禁止使用美企的作業系統,因此政府部門的電腦系統backend已有分散風險的設計。


P.S. 感謝Volitium 的 CTO親自教授資料



6 則留言:

  1. 微軟今次尼單野的確有D兒戲,去中心化點都有佢既價值

    回覆刪除
  2. 回覆
    1. 不是,很多crypto node 是用Linux 的,多謝回應

      刪除
    2. linux都有
      但重點係個decentralised network都係喺個centralised network (OS)度run

      刪除
    3. 實際上係大部份人做node都係獨立的電腦或raspberry pi行Linux, 不會用msft, 就算 network 係香港用CSL, 亦有人用SmarTone, 在加拿大的node用Rogers, 亦有人用Bell, 在英國的node用Vondafone, 在美國的node用AT&T, CSL power outage, 都仍然還有 Smartone, Vodafone、AT&T 、Rogers,Bell, 唔會全部一齊 power outage, 這叫 decentralized. 無人話唔用centralized network.

      刪除

請留回應!