Platform助力上海超算提高集群使用率
作為一個城市現(xiàn)代化發(fā)展水平的重要標志,公共計算平臺能夠讓更多的人力資源、資金、技術快速流動起來,在帶來巨大的經濟效益和社會效益的同時,推動著高新技術產業(yè)以及企業(yè)自主創(chuàng)新的發(fā)展,具有深遠意義。
上海超級計算中心(SSC)由上海市政府投資建設,累計總投資規(guī)模5億元人民幣以上,坐落于上海市張江高科技園區(qū)。多年來,上海超級計算中心立足上海,面向全國,為來自工程科研院所和多所知名大學的超過350家用戶,提供了隨需應變的高性能計算資源、技術支持以及高級技術咨詢服務,支持了一大批國家和地方政府的重大科學研究、工程和企業(yè)新產品研發(fā),在汽車、航空、鋼鐵、核能、市政工程、新材料、生物制藥、天文、物理、化學等多個領域取得了大批重大成果。
挑戰(zhàn):數(shù)百萬億次計算規(guī)模 作業(yè)調度系統(tǒng)面臨挑戰(zhàn)
上海超算中心目前擁有曙光4000A(2004年世界排名第十)和“魔方”(曙光5000A,2008年世界排名第十、亞洲第一)等多臺超級計算機,同時配備豐富的科學計算和工程計算軟件。
上海超算中心主機系統(tǒng)分三期工程進行建設,其中,二期工程部署了曙光4000A超級計算機系統(tǒng),共有512個計算節(jié)點,每個節(jié)點4個CPU,于2004年底投入運行。三期工程部署了魔方(曙光5000A)超級計算機,于2009年6月投入運行,共有1500多臺計算節(jié)點,2.5萬多個核。在魔方(曙光5000A)上運行超過了40種以上的各類商用應用軟件和上百種的科學研究程序。
上海超算中心高性能計算集群系統(tǒng)三期主機的處理能力為二期主機的20倍,CPU個數(shù)為二期主機的10倍以上,系統(tǒng)每天運行的作業(yè)數(shù)、訪問用戶數(shù)及作業(yè)類型等也成比例增長,因此系統(tǒng)運行的復雜度呈成倍增長態(tài)勢,這對主機系統(tǒng)管理和運行的核心軟件——作業(yè)調度系統(tǒng)提出了更高、更嚴的要求。
同時,上海超算中心高性能計算集群平臺的應用環(huán)境非常復雜,其應用領域遍及基礎科學研究(包括計算化學、高能物理、地球物理、天體物理、 新材料研究、生物醫(yī)藥、基因研究、人工智能等);社會公益事業(yè)(包括數(shù)值氣象預報、環(huán)境保護、地震預報);工業(yè)與工程計算(包括航空航天、船舶和海洋工程、汽車設計、地質勘探、建筑工程、核電工程、電子與通訊、裝備制造);數(shù)據(jù)處理(包括金融、政務、商務、證券、交通)等多個領域,這就要求高性能計算集群平臺的作業(yè)調度系統(tǒng)必須能對各個應用軟件具有非常良好的支持,不僅能支持各種工程計算應用,還能支持各種各樣基礎科學研究。這意味著作業(yè)調度系統(tǒng)要與各個商業(yè)應用軟件具有良好的接口和后臺支撐,同時還必須支持各種開源軟件,確保各種應用軟件在集群環(huán)境下的穩(wěn)定應用。
解決方案:Platform LSF挺身而出 難題不再
自上海超算中心二期工程實施以來,Platform就積極參與到高性能計算集群系統(tǒng)建設中來,為上海超算中心的高性能計算集群系統(tǒng)的正常運作提供強有力的支持。
Platform為上海超算中心高性能計算集群系統(tǒng)三期工程提供的Platform 作業(yè)調度系統(tǒng)(Platform LSF HPC)解決方案拓撲圖如下圖所示。在訪問網絡層,提供用戶使用高性能平臺的通道,通過登錄節(jié)點作為統(tǒng)一接口訪問高性能服務,同時,將用戶與高性能后臺系統(tǒng)隔離,提高安全性和可管理性。在管理網絡層,提供對高性能平臺進行部署、監(jiān)控、調度和管理通信平臺,保證系統(tǒng)可控性和可管理性。在計算網絡層,提供高性能應用、并行計算應用之間數(shù)據(jù)通信,減少延遲和增大帶寬,保證高性能計算應用的高效率和高質量。在存儲網絡層,提供存儲服務器與存儲設備高IO吞吐和高流量通訊訪問,保證系統(tǒng)對存儲利用的高并發(fā)和大吞吐。當然,其他節(jié)點對存儲訪問不僅依賴存儲網絡,同時還將依賴IO服務器與其他服務器之間的管理網絡或計算網絡(取決于IO服務器使用管理網絡還是計算網絡提供IO服務)。
Platform作業(yè)調度系統(tǒng)(Platform LSF HPC)的核心是Platform LSF。LSF是業(yè)界領先的最為廣泛使用的分布式批處理中間件,它可以用于提供PaaS服務, 并支持網格化SaaS。在電子設計、航空航天、汽車、生命科學、政府、教育、科研、石油等各個領域獲得了廣泛應用,包括德州儀器(TI)、AMD、通用汽車、戴姆勒克萊斯勒、波音、聯(lián)合技術等著名公司均采用LSF對其高性能計算平臺進行管理和調度。
LSF在可靠性、響應時間、可操作性、可維護性等方面有較大的優(yōu)勢,表現(xiàn)在:
高可靠性。隨著機群系統(tǒng)的逐步擴大,依賴于機群系統(tǒng)的人越來越多,機群系統(tǒng)的故障將導致數(shù)百、乃至數(shù)千分布世界各地的員工工作受到影響,甚至直接影響到產品的測試、驗證乃至發(fā)布。LSF具有高可靠性,其機群系統(tǒng)的平均無故障時間大于99.95%,即一個季度,停機時間小于一個小時。LSF的高可靠性已經在TI,AMD,NVIDIA等超大規(guī)模機群的運營中得到證明。
100%可信賴的作業(yè)調度和管理。LSF提供的透明遠程執(zhí)行機制以及通過JobStarter提供的作業(yè)運行環(huán)境自適應機制可以確保作業(yè)調度和運行的正確性。TI、 AMD、NVIDIA、GM等作業(yè)調度系統(tǒng)運營表明,在不考慮用戶因素和操作系統(tǒng)等其它因素的情況下,其作業(yè)調度系統(tǒng)確保作業(yè)運行的正確性為99.99%以上。
高可擴展性。Platform LSF單一機群管理的CPU數(shù)已經向10,000 ~ 20,000等更多CPU方向展。目前在TI, AMD, NVIDIA等企業(yè)單個機群最大CPU數(shù)均超過計10000個,節(jié)點數(shù)在4、5000臺以上。
良好的可操作性,支持在線修改。Platform LSF支持在線修改,支持系統(tǒng)管理員根據(jù)用戶需求的變化,動態(tài)地修改系統(tǒng)配置,不影響作業(yè)的運行和用戶的使用。
良好的可維護性。Platform LSF支持機群系統(tǒng)的在線升級和維護。系統(tǒng)管理員可以在不影響作業(yè)的運行和用戶使用的情況下,替換新的系統(tǒng)服務程序,進行系統(tǒng)在線升級和維護。
效果:實現(xiàn)負載均衡 管理更便捷
Platform 作業(yè)調度系統(tǒng)很好地幫助上海超算解決了大型、復雜作業(yè)的調度,保證了整個集群的負載平衡,提高了作業(yè)運行效率,大大降低了作業(yè)運行的成本。表現(xiàn)在以下幾個方面:
保證了負載均衡,讓每臺機器都參與運算,提高了整個集群的使用率。作業(yè)提交后,可以很均衡的提交到集群中的上千個計算節(jié)點上,讓上萬個核都參與運算,而不是每次都是一部分機器參與運算。
作業(yè)的運行時間大大降低,降低了運行成本,從而提高了系統(tǒng)的吞吐量。例如一個運行10小時的FLUENT的作業(yè),利用LSF調度后,一般可以將時間縮短到8小時,甚至5小時,效率提高了20%~50%。
管理方便。LSF已經將2000多臺計算節(jié)點分三個邏輯分區(qū)進行了合理的管理,管理員可以很容易地對每個邏輯分區(qū)的每個計算節(jié)點進行實時查詢和監(jiān)控。
操作方便。LSF已經集成了40多個應用軟件,上海超算的客戶可以很容易的提交他們的作業(yè)、數(shù)據(jù)的上傳和下載,并對作業(yè)進行實時監(jiān)控。
上海超算中心魏玉琪經理認為,Platform LSF是個很優(yōu)秀的集群調度軟件,LSF很好的幫助上海超算解決了大型、復雜作業(yè)的調度,保證了整個集群的負載平衡,讓2萬多個核都參與運算,提高了作業(yè)運行效率,大大降低了作業(yè)運行的成本?,F(xiàn)在上海超算中心的高性能計算集群系統(tǒng)保持著滿負荷運行,每天有上千個作業(yè)吞吐量,LSF能很好的將用戶作業(yè)進行調度,并保證了作業(yè)運行的穩(wěn)定性、安全性,而且查詢也非常方便,能實時地對作業(yè)進行監(jiān)控。Platform幫助上海超算中心將各種應用軟件集成到了LSF中,方便了中心的用戶提交作業(yè)。他表示,未來,上海超級計算中心將進一步提升技術能力和服務水平,協(xié)助更多的用戶將先進計算能力轉化為科研創(chuàng)新能力,打造國際一流的超級計算中心。