【
儀表網(wǎng) 行業(yè)標(biāo)準】近日,由中國電子技術(shù)標(biāo)準化研究院 、華為技術(shù)有限公司 、中國科學(xué)院軟件研究所 、北京航空航天大學(xué) 、浪潮電子信息產(chǎn)業(yè)股份有限公司等單位起草,TC28(全國信息技術(shù)標(biāo)準化技術(shù)委員會)歸口的國家標(biāo)準計劃《人工智能
服務(wù)器系統(tǒng)性能測試規(guī)范》征求意見稿已編制完成,現(xiàn)公開征求意見。
當(dāng)前具有代表性的通用 AI 測試基準、HPC 性能測試基準或服務(wù)器技術(shù)規(guī)范,如 MLPerf、AI Benchmark、benchcouncil、AI-HPL、Linpack、DAWNBENCH、T/CESA 1043-2019《面向深度學(xué)習(xí)的服務(wù)器規(guī)范》、GB/T 9813.3《計算機通用規(guī)范 第 3 部分:服務(wù)器》《人工智能芯片 面向云側(cè)的深度學(xué)習(xí)芯片測試指標(biāo)與測試方法》以及 AIIA DNN benchmark 等,在 AI 服務(wù)器系統(tǒng)性能測試方面,仍存在一些未解決的問題。
1) 通用服務(wù)器技術(shù)規(guī)范對 AI 服務(wù)器系統(tǒng)的性能測試的規(guī)定不深入、而且存在同質(zhì)化傾向。在測試指標(biāo)方面,僅端到端運行時間、能耗等不能準確反映AI 服務(wù)器系統(tǒng)。系統(tǒng)內(nèi)部運行時效能方面,尚不存在標(biāo)準化的測試方法。
2) 通用 AI 性能測試,使用公眾可獲得的模型、數(shù)據(jù)集。它們與行業(yè)(如金融、醫(yī)療)實際使用的模型、數(shù)據(jù)有較大差異。通用測試的結(jié)果,對行業(yè)指導(dǎo)意義不強,行業(yè)業(yè)務(wù)在 AI 服務(wù)器系統(tǒng)計算設(shè)施上的運行效果,無直接評判依據(jù)。
3) 當(dāng)前的測試基準對測試科學(xué)(test technology)理論的實踐相對較薄弱。這些測試基準對性能的理解、解釋及測試方法僅限于穩(wěn)定狀態(tài)運行時間,而未考慮真實運行環(huán)境及系統(tǒng)自身現(xiàn)實狀態(tài)。
針對以上問題,該標(biāo)準擬結(jié)合測試技術(shù),在通用及行業(yè)應(yīng)用兩方面,研究并標(biāo)準化測試方法、用例,達到較為全面、準確的測試效果。
人工智能服務(wù)器系統(tǒng),包含人工智能服務(wù)器、集群和高性能計算設(shè)施等形態(tài)。人工智能服務(wù)器系統(tǒng),是各類深度學(xué)習(xí)模型(包含大規(guī)模預(yù)訓(xùn)練模型)的訓(xùn)練和推理的核心載體,是各行業(yè)應(yīng)用人工智能技術(shù)提升生產(chǎn)效率的核心工具。人工智能服務(wù)器系統(tǒng)專為處理人工智能計算任務(wù)設(shè)計,在架構(gòu)、運算方式和用途用法上,與通用服務(wù)器系統(tǒng)有較大差別,其測試過程、負載和指標(biāo)等,皆有獨特性。本文件提出人工智能服務(wù)器系統(tǒng)性能基準測試的方法,并對基準測試工具提出技術(shù)要求。
本文件規(guī)定了人工智能服務(wù)器系統(tǒng),完成深度學(xué)習(xí)訓(xùn)練及推理任務(wù)的性能(運行時間、能耗、實際吞吐率、能效、效率、彈性、承壓能力等)測試方法。本文件適用于人工智能服務(wù)器系統(tǒng)的性能評估。
本文件內(nèi)容框架如下:
1. 測試類型
a) 開放測試
b) 封閉測試
2. 訓(xùn)練
a) 訓(xùn)練過程;
b) 測試控制要素(含準確率門限、機器學(xué)習(xí)框架、混合精度訓(xùn)練、訓(xùn)練結(jié)果精度要求、數(shù)據(jù)讀入要求、數(shù)據(jù)預(yù)處理過程、數(shù)據(jù)遍歷要求、目標(biāo)模型要求、超參選取規(guī)則、優(yōu)化算法技術(shù)要求、損失函數(shù)技術(shù)要求、操作系統(tǒng)及環(huán)境要求等);
c) 結(jié)果符合性(含元數(shù)據(jù)、結(jié)果模型一致性、訓(xùn)練代碼要求、日志要求等)
d) 場景(含通用及行業(yè)專用場景);
e) 指標(biāo)及獲取方法(含通用指標(biāo)、測試學(xué)相關(guān)指標(biāo)、行業(yè)專用指標(biāo)等);
f) 測試工具要求(構(gòu)架、功能要求、公平性保障要求);
3. 推理
a) 推理過程;
b) 測試控制要素(含作業(yè)到達控制、準確率、機器學(xué)習(xí)框架、量化、重訓(xùn)練、數(shù)據(jù)預(yù)處理、數(shù)據(jù)后處理、數(shù)據(jù)遍歷、數(shù)據(jù)緩存、作業(yè)延誤及丟失控制、操作系統(tǒng)及環(huán)境要求等);
c) 結(jié)果(含元數(shù)據(jù)、模型一致性要求、代碼技術(shù)要求、日志要求等);
d) 場景(含通用及行業(yè)專用場景);
e) 指標(biāo)及獲取方法(含通用指標(biāo)、測試學(xué)相關(guān)指標(biāo)、行業(yè)專用指標(biāo));測試工具要求(構(gòu)架、功能要求、公平性保障要求等)。
更多內(nèi)容詳情請見附件。
所有評論僅代表網(wǎng)友意見,與本站立場無關(guān)。