系統(tǒng)基于大模型的開發(fā)訓(xùn)練方法,完成大模型開發(fā)訓(xùn)練環(huán)境的搭建,并特別針對(duì)企業(yè)典型的云平臺(tái)運(yùn)維需求,結(jié)合領(lǐng)域業(yè)務(wù)數(shù)據(jù)完成運(yùn)維大模型的調(diào)試工作,實(shí)現(xiàn)了大模型在云平臺(tái)運(yùn)維領(lǐng)域的應(yīng)用。
1、技術(shù)路徑:基于大模型的云平臺(tái)智能運(yùn)維系統(tǒng)以淵亭大模型開發(fā)訓(xùn)練平臺(tái)、大模型數(shù)據(jù)治理平臺(tái)為基礎(chǔ),消納用戶已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),結(jié)合淵亭科技的智能模型開發(fā)和調(diào)優(yōu)經(jīng)驗(yàn),支撐云平臺(tái)多個(gè)應(yīng)用方向的智能運(yùn)維管理。
2.技術(shù)架構(gòu):基于大模型的云平臺(tái)智能運(yùn)維系統(tǒng)從下至上,分為基礎(chǔ)設(shè)施層、資源支撐層、能力供給層、能力生成層和應(yīng)用服務(wù)層。
基于大模型的云平臺(tái)智能運(yùn)維系統(tǒng)典型應(yīng)用場景有運(yùn)維數(shù)據(jù)管理、異常告警管理、故障分析、故障預(yù)測等。
云平臺(tái)運(yùn)維工作是一項(xiàng)繁瑣、高要求的工作,除了常規(guī)的日常運(yùn)維服務(wù)之外,在當(dāng)前海量數(shù)據(jù)場景下,自動(dòng)發(fā)現(xiàn)故障和自動(dòng)異常檢測的需求甚為迫切,如何能極大地簡化研發(fā)策略配置成本,提高告警的準(zhǔn)確率,減少告警風(fēng)暴和誤告,從而提高運(yùn)維效率是運(yùn)維工作面臨的重大挑戰(zhàn)之一。另外,如何解決當(dāng)前海量數(shù)據(jù)場景下人工配置和運(yùn)營告警策略、告警風(fēng)暴和準(zhǔn)確率不高等問題也是運(yùn)維工作的核心痛點(diǎn)。
本項(xiàng)目由淵亭科技針對(duì)同方有云重點(diǎn)運(yùn)維業(yè)務(wù)的痛點(diǎn)進(jìn)行行業(yè)大模型建設(shè)。具體的,處理大量的云平臺(tái)運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),利用開源大模型訓(xùn)練運(yùn)維基座模型,并結(jié)合業(yè)務(wù)需求,孵化面向不同場景的專業(yè)運(yùn)維大模型,能夠進(jìn)行自動(dòng)發(fā)現(xiàn)故障和自動(dòng)異常檢測,探索了基于運(yùn)維大模型的智能運(yùn)營。同時(shí),設(shè)計(jì)了數(shù)據(jù)回流機(jī)制,能夠在運(yùn)維過程中從海量運(yùn)維數(shù)據(jù)中不斷進(jìn)行處理加工和提煉,反哺專業(yè)運(yùn)維大模型,形成數(shù)據(jù)飛輪。
基于大模型的云平臺(tái)智能運(yùn)維系統(tǒng)以淵亭大模型開發(fā)訓(xùn)練平臺(tái)、大模型數(shù)據(jù)治理平臺(tái)為基礎(chǔ),消納用戶已有的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),結(jié)合淵亭科技的智能模型開發(fā)和調(diào)優(yōu)經(jīng)驗(yàn),支撐云平臺(tái)多個(gè)應(yīng)用方向的智能運(yùn)維管理。
基于大模型的云平臺(tái)智能運(yùn)維系統(tǒng)從下至上,分為基礎(chǔ)設(shè)施層、資源支撐層、能力供給層、能力生成層和應(yīng)用服務(wù)層,如下突所示。
3.系統(tǒng)功能
(1)向量知識(shí)庫管理功能:提供一站式的向量庫建立手段,能夠?qū)胫R(shí)圖譜、文檔等,快速進(jìn)行向量化,并對(duì)向量化細(xì)節(jié)提供細(xì)粒度的調(diào)整手段,能夠測試和預(yù)覽向量知識(shí)庫效果。
(2)向量知識(shí)庫應(yīng)用功能:支持多樣化的編排模版,實(shí)現(xiàn)對(duì)話鏈、溯源等典型場景的快速構(gòu)建。并能夠結(jié)合提示詞模版支撐高匹配度的領(lǐng)域問答。
• 支持至少10GB級(jí)別的大規(guī)模數(shù)據(jù)集的接入,包括連接數(shù)據(jù)源、加載數(shù)據(jù)、解析數(shù)據(jù)、數(shù)據(jù)處理等能力;
• 支持加載多種精度(如float64、float16或int8等)的模型;
• 支持使用至少2種常見的微調(diào)算法開展微調(diào);
• 支持微調(diào)后模型保存時(shí)間為分鐘級(jí);
5.應(yīng)用場景
基于大模型的云平臺(tái)智能運(yùn)維系統(tǒng)典型應(yīng)用場景有運(yùn)維數(shù)據(jù)管理、異常告警管理、故障分析、故障預(yù)測等。
(1)異常告警監(jiān)控
通過對(duì)異常數(shù)據(jù)進(jìn)行打標(biāo)、微調(diào),能夠自動(dòng)發(fā)現(xiàn)IT系統(tǒng)中的異常行為,并提供及時(shí)的警報(bào)和響應(yīng)。利用溯源功能、知識(shí)庫功能,快速定位異常點(diǎn),進(jìn)而完成海量數(shù)據(jù)精確匹配、時(shí)序類別多樣性分析和實(shí)時(shí)處理等工作。
(2)運(yùn)維故障分析 能夠快速分析處理多種類型的海量數(shù)據(jù),如Trace、Metric和Log等類型,輔助進(jìn)行故障診斷和分析,形成推測的事件根因,供人工二次復(fù)核。結(jié)合運(yùn)維系統(tǒng)其他功能,實(shí)現(xiàn)從異常檢測到根因定位、故障分類、故障分析和修復(fù)建議的全流程自動(dòng)化處理,提高故障分析效率。
(3)故障預(yù)測
引入正常數(shù)據(jù)、異常數(shù)據(jù),開展運(yùn)行數(shù)據(jù)的特征挖掘,聚焦其中的異常因素,形成模型基礎(chǔ)認(rèn)知。在實(shí)際問題即將發(fā)生前,大模型自主快速的進(jìn)行提示,通過人機(jī)結(jié)合的確認(rèn)審核手段,預(yù)測未來事件,防止?jié)撛诘墓收稀?
系統(tǒng)運(yùn)維工作是一項(xiàng)繁瑣、高要求的工作,且對(duì)可靠性具有很高的要求,基于大模型的云平臺(tái)智能運(yùn)維系統(tǒng)可以提高信息化系統(tǒng)運(yùn)維效率,降低運(yùn)維成本,增強(qiáng)預(yù)測性維護(hù)能力,并能實(shí)現(xiàn)運(yùn)維個(gè)性化服務(wù)。
1.提高運(yùn)維效率:系統(tǒng)引入運(yùn)維大模型,自動(dòng)化處理海量運(yùn)維數(shù)據(jù),進(jìn)行快速、高質(zhì)量判斷,能夠代替運(yùn)維人員進(jìn)行大量判斷,實(shí)現(xiàn)風(fēng)險(xiǎn)的預(yù)防、發(fā)現(xiàn)、定位和處理,從而大幅提高運(yùn)維工作的效率。
2.降低運(yùn)維成本:隨著系統(tǒng)復(fù)雜化,傳統(tǒng)的人工運(yùn)維成本不斷上升。系統(tǒng)通過構(gòu)建具備自適應(yīng)性的功能大模型,減少人工維護(hù)工作量,進(jìn)而有效降低這部分成本,是降本增效的有效手段。
3.增強(qiáng)預(yù)測性維護(hù):增強(qiáng)的預(yù)測性維護(hù)能力,使得設(shè)備的可靠性、生命周期得到大大的提升,系統(tǒng)的穩(wěn)定性也得到增強(qiáng)。
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |