今年2月,我們FCC-E產(chǎn)品全新上線了專有D區(qū),專門滿足用戶對高性價比的稀缺大機型需求。
產(chǎn)品研發(fā)組的小伙伴們根本停不下來~
才幾個月,我們又又上新了!今天的新品是
FCP
(fastone Compute Platform),我們的
一站式企業(yè)級軟件平臺
,主要面向的是已經(jīng)有本地研發(fā)環(huán)境,但依然為一些問題而頭疼的用戶——
本地資源利用率為什么這么低??
設(shè)計仿真業(yè)務(wù)卡頓,怎么搞?加機器?擴存儲?集群化?
如何搭建一個研發(fā)集群?LSF、Slurm、OpenLava、SGE?沒有經(jīng)驗?
EDA/CAE等工具無法使用?仿真Case異常退出?驗證出現(xiàn)中斷?
項目高峰期或沖刺期,怎么確保業(yè)務(wù)穩(wěn)定可靠,不掉鏈子?
有成熟穩(wěn)定大規(guī)模實踐的國產(chǎn)自主可控研發(fā)平臺嗎?
上市成熟企業(yè)如何中長期規(guī)劃研發(fā)平臺的演進和持續(xù)性降本增效?
01
先說FCP有啥用
四大典型適用場景
FCP是面向創(chuàng)新驅(qū)動型用戶的一站式企業(yè)級軟件平臺,能夠快速構(gòu)建企業(yè)本地研發(fā)環(huán)境,高效管理用戶資源。FCP充分支持企業(yè)向混合云架構(gòu)演進,統(tǒng)一管理多本地及多云的復(fù)雜研發(fā)環(huán)境,提升研發(fā)效率并降低總體擁有成本。
emmmmm,官方說明有點過于官方了。
沒事,接下來我們來具體看看,對企業(yè)來說,F(xiàn)CP的四個典型適用場景:
場景一:黑箱變白箱,提升資源利用率
用戶將本地機器當單機使用,各干各的,也不加限制與管理,先到先得。一旦有人著急使用的時候要么機器拉滿,內(nèi)存爆掉,任務(wù)失敗,要么排長隊。本地資源使用情況,形同黑箱。
FCP搭載了速石調(diào)度器Fsched,把散亂的單機資源匯成集群,支持靈活的調(diào)度策略,實現(xiàn)集群全生命周期管理,避免資源碎片化和資源搶奪問題,統(tǒng)一管理,資源共享,提升利用率。
配合可視化監(jiān)控,資源使用狀況了如指掌,安排得明明白白。如果任務(wù)運行觸發(fā)了預(yù)設(shè)的告警指標,負責(zé)人會實時收到提醒,及時處理任務(wù)異常。
場景二:可視化界面+自動化運維,贏麻了
企業(yè)業(yè)務(wù)場景需求多樣,比如突發(fā)大算力需求、混合云模式、外包團隊管理、全球多地協(xié)同研發(fā)等等,整個IT基礎(chǔ)架構(gòu)通常比較復(fù)雜。
而工業(yè)軟件體系龐大,使用和維護都有一定的門檻,如工具版本管理、任務(wù)flow優(yōu)化等既要基礎(chǔ)IT能力,又要有業(yè)務(wù)認知。
企業(yè)內(nèi)部有多個部門的,還要考慮審批流程與內(nèi)部權(quán)限劃分,保障自己的數(shù)字資產(chǎn)安全。
FCP實現(xiàn)了上述需求的產(chǎn)品化,只要在后臺完成設(shè)置,不需要手動一一操作,可視化界面+自動化運維,贏麻了。
場景三:應(yīng)用與資源雙管齊下,研發(fā)戰(zhàn)斗力加成100%
本地研發(fā)環(huán)境的集群模式能提高單人資源使用上限,而當本地資源不夠用的時候,F(xiàn)CP還能開啟混合云模式,自動調(diào)度云資源充分滿足業(yè)務(wù)需求。
但是研發(fā)效率的癥結(jié)可不止在資源層面——
FCP提供基于任務(wù)、資源或團隊層面的靈活調(diào)度策略配置,最優(yōu)化使用資源滿足不同企業(yè)不同發(fā)展階段的業(yè)務(wù)目標。對應(yīng)用本身運行提供支持和優(yōu)化,并結(jié)合應(yīng)用和底層資源的聯(lián)動和適配,給出最佳實踐。
不同業(yè)務(wù)團隊之間可以根據(jù)不同用戶權(quán)限共享計算資源、存儲資源、軟件資源等,提高了整個團隊的工作與協(xié)同效率。
場景四:業(yè)務(wù)目標穩(wěn)定達成,中間不掉鏈子
資源利用率,運維效率,研發(fā)效率,統(tǒng)統(tǒng)上來了,最后一個要保證的,就是業(yè)務(wù)穩(wěn)定性與可持續(xù)性了,尤其是項目高峰期或沖刺期。像我們在普冉案例里算的,停一天就是幾百萬,這誰扛得住?
我們FCP產(chǎn)品能支持整個研發(fā)全流程,同時,高可用的混合云架構(gòu)保障平臺自身穩(wěn)定。我們能統(tǒng)一管理多本地及多云的復(fù)雜研發(fā)環(huán)境,且能隨時拓展到云上,支持業(yè)務(wù)的擴展性和連續(xù)性,業(yè)務(wù)數(shù)據(jù)運營分析能為運營優(yōu)化與決策提供數(shù)據(jù)支撐。專業(yè)的CSM服務(wù)能覆蓋用戶全生命周期,提供全天候?qū)I(yè)服務(wù)與客戶保障,確保用戶業(yè)務(wù)目標的達成。
更長期來看,國產(chǎn)合規(guī)這個問題,不少企業(yè)已經(jīng)開始早作打算了。
02
速石兩大產(chǎn)品線:
FCP與FCC-E,啥關(guān)系?
我們的兩大產(chǎn)品線FCC-E和FCP有什么關(guān)系呢?
用戶應(yīng)該怎么選?兩者之間有沖突嗎?
如果企業(yè)想輕資產(chǎn)快速起步,對未來發(fā)展不確定,對產(chǎn)品彈性要求高,我們首推FCC-E:即開即用的研發(fā)云平臺,遍布全球的資源中心,滿足全球化業(yè)務(wù)協(xié)同發(fā)展,能為企業(yè)提供一條研發(fā)的捷徑。
如果企業(yè)需要部署或者優(yōu)化本地研發(fā)環(huán)境,F(xiàn)CP可以說是不二之選:本地標準化集群部署,靈活的調(diào)度策略,可視化的監(jiān)控與實時告警,IT運維自動化,能最大化本地資源的投入產(chǎn)出比。
發(fā)展到一定階段后,有本地環(huán)境的企業(yè),業(yè)務(wù)逐漸增多,波峰波谷明顯,可能涉及外包團隊管理,數(shù)據(jù)備份或容災(zāi),或者多地研發(fā)中心協(xié)同。這時候,就需要混合云架構(gòu)了。
本地+云端,這就是混合云了?
nonono ~~
由于FCP與FCC-E在底層架構(gòu)的一致性,F(xiàn)CP能夠隨時向混合云架構(gòu)演進,把本地的管理能力拓展到云端,并且實現(xiàn)算力、網(wǎng)絡(luò)、存儲、許可證和數(shù)據(jù)等關(guān)鍵資源的統(tǒng)一管理,保障資源調(diào)度、系統(tǒng)監(jiān)控和性能分析的一致性和高效性。
之前怎么用,之后還是怎么用。
03
選擇適合你的FCP版本:
Core核心版 vs Suite旗艦版
為了讓FCP更貼合用戶的實際需求,我們推出了兩種不同的版本——FCP Core核心版與FCP Suite旗艦版。
下圖中心區(qū)域即FCP Core核心版,中心和周邊共同構(gòu)成FCP Suite旗艦版。
二者相同點
幫助企業(yè)提升研發(fā)效率,保障業(yè)務(wù)的連續(xù)性與擴展性;
自動化構(gòu)建標準本地環(huán)境,榨干本地算力,讓運維更簡單;
提供可視化的資源監(jiān)控告警,信息透明,便于決策支持。
二者的區(qū)別
Core提供的是核心功能模塊,構(gòu)建環(huán)境、集群管理、自動化運維這些都包括在內(nèi),因此更適合需要快速搭建本地環(huán)境的小微企業(yè);
Suite涵蓋Core的全部功能,并在這個基礎(chǔ)上增加了六大高級能力加持,更適合用于大中型企業(yè)的復(fù)雜研發(fā)環(huán)境管理;
FCP目前只有Suite支持將工作負載溢出至云端,也只有Suite能滿足深度定制化需求。
總的來說,Core是產(chǎn)品的地基,而Suite就是建立在這個基礎(chǔ)上更全面、更符合企業(yè)級業(yè)務(wù)需求的產(chǎn)品。
04
FCP的落地實踐
舉4個栗子叭
單機變集群,研發(fā)效率提升50%
我們有一家做模擬芯片設(shè)計的用戶,他們的研發(fā)工程師們都沒有接觸過集群,平時本地服務(wù)器就是當單機用,各干各的,沒有明確的資源限制和任務(wù)管理機制。這就導(dǎo)致任務(wù)高峰期機器經(jīng)常滿載,內(nèi)存爆掉也很常見,辦公室里經(jīng)常響起絕望的嘶吼。
OK,安排。
轉(zhuǎn)成集群模式后,對研發(fā)工程師來說,一個任務(wù)可以拆分多機跑,多個任務(wù)可以同時跑,來了大任務(wù)也不用擔(dān)心被一臺機器的上限所限制。
而原本碎片化的資源在統(tǒng)一匯入資源池后,IT負責(zé)人可以直接在可視化界面上做集群管理,根據(jù)各組的情況調(diào)度分配資源,從根本解決資源碎片化和資源搶奪等問題。
從單機模式到集群模式,最直接的效果是:計算效率提升30%-50%。
單機轉(zhuǎn)集群更多優(yōu)點請戳:集群如何成為項目研發(fā)、IT和老板的最佳拍檔?
FCP產(chǎn)品替代開源調(diào)度器,CAD精力節(jié)約40%+
普冉半導(dǎo)體在與我們合作前,是用SGE搭建集群的,但版本和新版操作系統(tǒng)、EDA工具軟件兼容不佳,在滿足一些更高階功能的情況下受到一定限制。
為了保障公司整體業(yè)務(wù)的穩(wěn)定性,同時最小化軟件環(huán)境對研發(fā)進度的影響,普冉選擇讓FCP逐漸覆蓋原有的研發(fā)環(huán)境,最終完全替代,以此提高自身的研發(fā)效率和體驗。同時,研發(fā)人員無須改變操作習(xí)慣。
我們提供了調(diào)度策略+任務(wù)&資源監(jiān)控+實時告警三步走功能。
在調(diào)度策略上,普冉能按照任務(wù)優(yōu)先級、資源空閑狀況、許可證使用等維度安排任務(wù)進程,也能實現(xiàn)不同團隊間的資源分配,隨時設(shè)置,隨時修改。
在監(jiān)控層面,我們提供基于EDA任務(wù)層的監(jiān)控、告警、數(shù)據(jù)統(tǒng)計分析功能與服務(wù),管理者能監(jiān)控重要指標變化,從全局角度掌握項目的整體任務(wù)及資源情況。
在實時告警上,普冉能自己設(shè)置關(guān)鍵指標,一旦觸發(fā)告警,就通過郵件、微信、飛書等方式告知相關(guān)人員,提醒處理。
FCP作為標準化產(chǎn)品,IT自動化程度高,能幫CAD和IT把很多手動的工作自動化,省去大量繁瑣的手動部署和對接調(diào)試工作。
在和普冉之前的研發(fā)表現(xiàn)做了量化對比后,我們幫助普冉提升了30%的整體研發(fā)效率,在上線初期就為CAD節(jié)省了40%的時間。
更多詳細內(nèi)容可戳:【案例】普冉半導(dǎo)體逐步布局自主可控,漸次提升研發(fā)效率
海內(nèi)外多site研發(fā)協(xié)同與統(tǒng)一管理
我們有一家全球化的IC Design用戶,在上海、美國、印度等地都有研發(fā)團隊,每個團隊都是獨立的,但又存在業(yè)務(wù)上的交叉,還有云上云下多個不同研發(fā)環(huán)境。
這種跨國多地研發(fā)中心的協(xié)同與統(tǒng)一管理,算是最復(fù)雜的那種了。
用戶統(tǒng)一使用了我們的產(chǎn)品,這對保障不同site間基礎(chǔ)架構(gòu)與用戶體驗的一致性起到了關(guān)鍵作用,可以減少大量的重復(fù)建設(shè)和協(xié)同過程中的溝通成本,顯著提高了整體的工作效率。
在多地研發(fā)協(xié)同上——
FCP的標準化確保了各site間的環(huán)境一致性,可以減少大量的重復(fù)建設(shè)和協(xié)同過程中的溝通成本。全球的項目數(shù)據(jù)能按照需求手動或自動同步,各site間互為備份。還有應(yīng)用的多版本管理,網(wǎng)絡(luò)優(yōu)化加速這種工作我們也順手解決了。
在FCP的支持下,不管是環(huán)境、網(wǎng)絡(luò)、數(shù)據(jù)還是工具,都得到了一致性的保障。
在全球統(tǒng)一管理上——
FCP能實現(xiàn)全球范圍的統(tǒng)一身份認證,給不同的用戶分別設(shè)定角色與訪問權(quán)限,對項目的數(shù)據(jù)和計算資源等做統(tǒng)一的管理和隔離,提高運營效率與整體信息安全水平。
IT自動化和平臺級的統(tǒng)一管理也釋放了IT與CAD的精力,各site間無需重復(fù)配置同一職能,有效幫助團隊節(jié)省了人力成本。
混合云架構(gòu),無需動輒六位數(shù)投入
在和一家數(shù)模混合芯片設(shè)計企業(yè)的交流過程中,對方表示自己的團隊擴張速度很快,業(yè)務(wù)量大且沒有規(guī)律,突發(fā)算力需求和多項目并行是常事了。
之前雖然超額配置了一批服務(wù)器,現(xiàn)在也不夠用了,考慮到自身需要一定的現(xiàn)金流儲備,而且機器買多了也沒有地方放,因此不想繼續(xù)投入大量資金采購。
在詳細分析了用戶的業(yè)務(wù)數(shù)據(jù)后,我們整理出了三個重點:
精細化運營,給一些需要大內(nèi)存的任務(wù)單獨分區(qū),避免內(nèi)部的資源搶奪,進一步提升效率;
盡可能使用本地資源,如果有突發(fā)算力需求,或者到了業(yè)務(wù)高峰期,能使用云端彈性資源補足;
本地和云端統(tǒng)一管理,降低IT壓力。
FCP的混合云架構(gòu),自帶的Auto-Scale彈性伸縮功能,可以按照任務(wù)需求,動態(tài)開啟和關(guān)閉云端資源,在資源靈活性和快速響應(yīng)能力這一塊拿捏得死死的。
我們提升了用戶的資源利用率,混合云架構(gòu)也完美解決了項目并行帶來的短期算力缺口,無需動輒六位數(shù)的投入,需要多少用多少。
05
1000家企業(yè)
1000個CSM
1000家企業(yè),可能有1000種不同需求。
大部分都可以用標準FCP產(chǎn)品來滿足的。
但總有一些非標需求,需要深入企業(yè)自身的業(yè)務(wù)場景與使用現(xiàn)狀,會涉及到一些定制化服務(wù)、專業(yè)分析評估、專家技術(shù)支持與行業(yè)經(jīng)驗的提煉輸出。
當然,很多問題,用戶自己也能在實踐中慢慢摸索,這個得失權(quán)衡,取決于用戶自己,可能是時間,可能是金錢,或其他。
我們的CSM(Customer Success Manager)服務(wù),提供面向企業(yè)用戶的全天候?qū)I(yè)服務(wù)與客戶保障,覆蓋用戶全生命周期使用場景。
CSM專業(yè)服務(wù)——單核時成本下降73%
藍箭航天
,我國民營商業(yè)航天的“破局者”,主打一個
自主研發(fā)
,發(fā)展速度非???,使用速石研發(fā)平臺的用戶數(shù)從0到數(shù)百人,穩(wěn)定增長,資源用量也隨著業(yè)務(wù)周期長期穩(wěn)定上升。
CSM服務(wù)效果:
提升用戶研發(fā)效率,保障整體業(yè)務(wù)穩(wěn)定性;
整個研發(fā)平臺使用期間,單核時成本下降達73%。
我們大致把整個業(yè)務(wù)分為三個階段:
階段一:在業(yè)務(wù)的磨合階段,平臺剛剛上線,用戶的使用習(xí)慣比較粗放。
CSM在調(diào)研和摸底后,結(jié)合實際業(yè)務(wù)和操作,向團隊輸出更精細的資源使用建議,并對CAE應(yīng)用做了深度支持,建立基礎(chǔ)監(jiān)控告警策略。
階段二:在中期優(yōu)化階段,GPU的使用量逐步增多,成本提升,不合理的資源使用帶來的成本浪費也被放大。
CSM通過監(jiān)控數(shù)據(jù)發(fā)現(xiàn)這點后,指導(dǎo)了合理的資源選型和業(yè)務(wù)分配,讓資源利用更加合理、高效。同時增設(shè)了核時波動告警、實例空閑告警,持續(xù)進行成本優(yōu)化。
階段三:在持續(xù)優(yōu)化的平穩(wěn)期,藍箭的業(yè)務(wù)穩(wěn)定性和單核時成本均邁入了穩(wěn)定向好的態(tài)勢。
CSM持續(xù)提供主動巡檢、定期數(shù)據(jù)分析、使用技巧賦能、安全加固規(guī)劃、產(chǎn)品需求追蹤落地等服務(wù)支撐,深耕細化,持續(xù)提升用戶體驗。
更多詳細內(nèi)容可以參考:
從“地獄級開局”到全球首款液氧甲烷火箭,我們?nèi)绾沃λ{箭沖破云霄
-END-
速石科技(ID:Fastone_tech)
我們?yōu)閯?chuàng)新驅(qū)動型用戶提供為應(yīng)用優(yōu)化的一站式研發(fā)云平臺,致力于構(gòu)建為應(yīng)用定義的云,讓任何應(yīng)用程序,始終以自動化、更優(yōu)化和可擴展的方式,在任何基礎(chǔ)架構(gòu)上運行。
說出你的應(yīng)用,我們就有故事~~
審核編輯 黃宇
-
仿真
+關(guān)注
關(guān)注
50文章
4097瀏覽量
133699 -
云平臺
+關(guān)注
關(guān)注
1文章
1310瀏覽量
38992 -
FCP
+關(guān)注
關(guān)注
0文章
12瀏覽量
1970
發(fā)布評論請先 登錄
相關(guān)推薦
評論