“別人家車廠”2.5分鐘下線一輛汽車 急需呼喚神龍!
2017地表上最快的計(jì)算機(jī)
基于HPCC平臺(tái)神威太湖一號(hào)(Sunway TaihuLight) 全球***理論性能超過每秒10億億次??纯此固垢4髮W(xué)的Dell HPC集群如下圖:https://www.top500.org/site/50628
在螺螄粉的故鄉(xiāng), 創(chuàng)造著這樣一個(gè)汽車神話,它不是汽車?yán)锼俣茸羁斓?,它也不是汽車?yán)?**雅豪華的,但是它曾經(jīng)創(chuàng)造了一臺(tái)車成為全球銷量最多的車型, 如今依舊在書寫著傳奇。然而隨著中國(guó)經(jīng)濟(jì)的不斷發(fā)展,國(guó)富民強(qiáng),人們對(duì)汽車的要求不僅僅停留在代步,經(jīng)濟(jì)緊湊的階段。更多的車型以及內(nèi)飾的需求如同雪花般的經(jīng)過經(jīng)銷商飛向客戶的研發(fā)部門。如何加快產(chǎn)品的研發(fā)迭代速度,縮短設(shè)計(jì)和分析的循環(huán)周期,如何更快的滿足客戶和市場(chǎng)的需求成為擺在客戶研發(fā)領(lǐng)導(dǎo)面前的一道難題。公司領(lǐng)導(dǎo)按照奧林匹克的精神對(duì)研發(fā)部門提出了“更快,更高,更強(qiáng)”的奮斗目標(biāo)??墒茄邪l(fā)部門也面臨著難題,按照車廠要求,整車級(jí)別網(wǎng)格尺寸為8~10mm,所以強(qiáng)度疲勞方面***網(wǎng)格數(shù)量大概500W,安全的模型算上假人的話,大約350w單元。帶假人計(jì)算時(shí),他們用12個(gè)CPU測(cè)試計(jì)算時(shí)間大約24小時(shí)。 CFD(整車級(jí)別)網(wǎng)格數(shù)量約3500W, 32個(gè)CPU計(jì)算時(shí)間為60小時(shí)左右。一個(gè)設(shè)計(jì)人員提交作業(yè)需要等待24小時(shí)-- 60小時(shí), 而且都是協(xié)同作業(yè),一人工作,大家等待?這個(gè)速度嚴(yán)重拖累了這個(gè)現(xiàn)代化車廠的后腿, 業(yè)界老大哥豐田的精益模式是2.5分鐘就能下線一輛汽車的, 急需呼喚神龍!
記得某位偉人曾經(jīng)說過,要想解決問題就必須深入到生產(chǎn)戰(zhàn)斗的一線去,那小D也來看看一個(gè)汽車設(shè)計(jì)工程師一天是如何度過的。在吃過了美味的螺螄粉后,工程師打開了它的戴爾工作站,一堆熟悉的圖標(biāo)映入了眼簾,打開了UG設(shè)計(jì)軟件,從公司的PDM(產(chǎn)品數(shù)據(jù)管理系統(tǒng))系統(tǒng)上下載了今天的工作文檔,手指在鼠標(biāo)和鍵盤上飛舞,一輛心儀的汽車設(shè)計(jì)圖紙就完工了。
緊接著,工程師就會(huì)使用工具軟件(Hypermesh)對(duì)模型進(jìn)行網(wǎng)格劃分,這道工序他們親切的稱為前處理。做完了前處理以后,就交給我們的CAE軟件求解了。CAE軟件五花八門就像一個(gè)大江湖,但是按照門派分,大致可以分成 結(jié)構(gòu)分析、NVH、碰撞安全、CFD(空氣動(dòng)力學(xué)分析、熱管理分析、成員舒適性分析)、約束產(chǎn)品五大門派。談到這5大門派,其實(shí)常用的武功(軟件)多達(dá)幾十種之多,主要的軟件及分類下表:
接著當(dāng)您看到工作站的硬盤燈在狂閃,CPU利用率一直居高不下的時(shí)候,您應(yīng)該意識(shí)到求解器正在努力的算啊算。當(dāng)求解完成后CAE的結(jié)果需要用CAD技術(shù)生成形象的圖形輸出,如生成位移圖,應(yīng)力,溫度,壓力分布的彩色明暗圖,我們稱它為后處理。一旦后處理做完了,工程師會(huì)喝上一杯美美的咖啡,然后完成***的CAE分析報(bào)告,整個(gè)工作就告一段落了。
看完了工程師的一天的工作流程之后,相信聰明的您肯定發(fā)現(xiàn)這個(gè)流程中的瓶頸在哪里了?對(duì)的,單臺(tái)工作站的硬件配置是有限的,計(jì)算一個(gè)小零件或者一個(gè)車門運(yùn)算量或許還能承受,但對(duì)于數(shù)據(jù)量較大的整車模型,工作站就明顯有點(diǎn)力不從心了。這個(gè)時(shí)候CAE協(xié)同計(jì)算平臺(tái)就成了我們需要呼喚的那條神龍。一個(gè)合格的CAE協(xié)同計(jì)算平臺(tái)需要包括以下子模塊:
- VDI遠(yuǎn)程可視化設(shè)計(jì)桌面
- CAE虛擬仿真(網(wǎng)格劃分及前后處理)
- HPC高性能計(jì)算(FEA&CFD仿真分析)
- 交互式作業(yè)、批處理作業(yè)提交與管理
- 批量作業(yè)提交與管理
- 仿真數(shù)據(jù)管理(仿真數(shù)據(jù)自動(dòng)按照軟件、項(xiàng)目、類型、作業(yè)自動(dòng)化管理)
- 仿真項(xiàng)目管理功能
- 仿真數(shù)據(jù)備份管理
- 集群管理與監(jiān)控(支持集群界面化的系統(tǒng)用戶、部門、部門角色添加和管理)
- HPC許可證資源管理
從以上模塊可以看出來,一個(gè)CAE協(xié)同計(jì)算平臺(tái)基本涵蓋了一個(gè)CAE工程師一天工作所要做的所有的事情,包括前后處理,計(jì)算,仿真數(shù)據(jù)管理,備份以及平臺(tái)監(jiān)控等等。戴爾的CAE協(xié)同計(jì)算平臺(tái)邏輯拓?fù)鋱D如下,從底層的硬件平臺(tái)到OS/編譯環(huán)境再到平臺(tái)軟件,戴爾可以提供端到端的整體解決方案。
這篇文章里面我們著重闡述戴爾高性能計(jì)算解決方案,高性能運(yùn)算就是利用一個(gè)集群中的多臺(tái)機(jī)器共同完成同一件任務(wù),使得完成任務(wù)的速度和可靠性都遠(yuǎn)遠(yuǎn)高于單機(jī)運(yùn)行的效果,彌補(bǔ)了單機(jī)性能上的不足。本文我們將會(huì)從網(wǎng)絡(luò),計(jì)算服務(wù)器,存儲(chǔ),集群軟件分別描述高性能計(jì)算解決方案的主要構(gòu)成部分。
高性能計(jì)算網(wǎng)絡(luò)
高性能計(jì)算的網(wǎng)絡(luò)可以分成3類:
- 計(jì)算網(wǎng)絡(luò):各服務(wù)器之間進(jìn)行通訊交互的計(jì)算網(wǎng)絡(luò),推薦采用高速、低延遲的戴爾56GB Infiniband 網(wǎng)絡(luò)交換機(jī)加以配套的HBA卡和IB線纜,以保證將集群軟件在分發(fā)任務(wù)到多個(gè)計(jì)算節(jié)點(diǎn)的過程中保證各節(jié)點(diǎn)之間能夠高速傳輸數(shù)據(jù)。
- 存儲(chǔ)網(wǎng)絡(luò):CAE軟件將計(jì)算任務(wù)提交到計(jì)算節(jié)點(diǎn),計(jì)算節(jié)點(diǎn)通過計(jì)算最終會(huì)產(chǎn)生很大的文件數(shù)據(jù),為了高效的存儲(chǔ)這些數(shù)據(jù),存儲(chǔ)端采用光纖交換網(wǎng)絡(luò)保證計(jì)算節(jié)點(diǎn)的數(shù)據(jù)可以快速的存放到存儲(chǔ)中。整個(gè)存儲(chǔ)網(wǎng)絡(luò)要求高帶寬低延時(shí)。
- 管理網(wǎng)絡(luò):除了計(jì)算網(wǎng)絡(luò),存儲(chǔ)網(wǎng)絡(luò)外,我們還有管理網(wǎng)絡(luò),通過戴爾的以太網(wǎng)交換機(jī),將各個(gè)計(jì)算節(jié)點(diǎn), 存儲(chǔ)結(jié)點(diǎn), 光纖存儲(chǔ)都納入到Dell OpenManage Essentials管理平臺(tái)進(jìn)行統(tǒng)一管理并結(jié)合自帶的告警平臺(tái)進(jìn)行監(jiān)控,降低管理員的運(yùn)維壓力。
高性能計(jì)算服務(wù)器
計(jì)算是高性能運(yùn)算的核心模塊,它的功能就是執(zhí)行計(jì)算。不同的CAE軟件對(duì)于CPU和內(nèi)存的需求各不相同,我們也會(huì)把計(jì)算節(jié)點(diǎn)分為胖/瘦節(jié)點(diǎn),以胖節(jié)點(diǎn)為例,它就適用于對(duì)內(nèi)存、處理性能要求高的計(jì)算任務(wù),在實(shí)際應(yīng)用中可以需要根據(jù)需求和預(yù)算來決定采用什么樣的配置。因?yàn)橐粋€(gè)計(jì)算節(jié)點(diǎn)的失效通常不會(huì)影響其他節(jié)點(diǎn),所以計(jì)算節(jié)點(diǎn)不需要冗余的硬件保護(hù)。
分布式高性能存儲(chǔ)
存儲(chǔ)采用在高性能計(jì)算領(lǐng)域普遍使用的Lustre 分布式存儲(chǔ)解決方案,2臺(tái)戴爾R730服務(wù)器作為L(zhǎng)ustre存儲(chǔ)元數(shù)據(jù)節(jié)點(diǎn),保證高可用性,多臺(tái)R730組成Lustre對(duì)象數(shù)據(jù)節(jié)點(diǎn),在保證節(jié)點(diǎn)的高可用性的前提下,數(shù)據(jù)分別從不同的節(jié)點(diǎn)高速傳輸?shù)酱鎯?chǔ)中。從整個(gè)架構(gòu)上消除存儲(chǔ)設(shè)計(jì)的瓶頸,為后續(xù)的數(shù)據(jù)持續(xù)增長(zhǎng),快速橫向擴(kuò)展提供便利條件。
高性能集群軟件
戴爾聯(lián)合優(yōu)質(zhì)合作伙伴提供具有大量用戶實(shí)際使用案例的高性能集群軟件,覆蓋統(tǒng)一訪問門戶,集群運(yùn)維管理,監(jiān)控,計(jì)算任務(wù)的分發(fā),計(jì)算任務(wù)的調(diào)度,許可證管理,統(tǒng)計(jì)記賬,計(jì)算數(shù)據(jù)管理等等功能。同時(shí)個(gè)性化的能夠結(jié)合CAE軟件提供集成接口等功能,更好的方便后續(xù)用戶管理和運(yùn)維高性能計(jì)算集群環(huán)境。
解決方案拓?fù)洌?/strong>
解決方案產(chǎn)品:
- M1000e
- 10Gb Dell MXL Blade Switch
- M630
- M830
- R730
- Brocade 300
- Powervault MD3400
- IB Switch(MSX6036)
- Dell HPCC services
- Lusture
解決方案效果:
實(shí)施完一期的HPCC 后,作業(yè)效率大大提高,項(xiàng)目目標(biāo)提前完成,該部門多次受到表揚(yáng), 工程師有時(shí)間在享受完一碗正宗的螺螄粉后,思考更多的項(xiàng)目創(chuàng)新。
戴爾的高性能計(jì)算解決方案——我們眼中的“利器”不但是為中國(guó)汽車生產(chǎn)制造貢獻(xiàn)了一份力量,同時(shí)還在眾多如氣象地震分析、石油勘探、基因工程、動(dòng)漫特技渲染、生物制藥等涉及國(guó)家科技及普及民生的眾多領(lǐng)域,承擔(dān)了技術(shù)改良和發(fā)展的責(zé)任。戴爾一直在高性能計(jì)算領(lǐng)域處于***地位,致力于設(shè)計(jì)開放、性能出色及高性價(jià)比的解決方案,為客戶帶來更大的靈活性、更高價(jià)值及更便捷的業(yè)務(wù)運(yùn)營(yíng)。