巨額算力投入成為技術(shù)和效益優(yōu)化的瓶頸,技術(shù)路徑破局迫在眉 睫。從效益端看,基于 Transformer 架構(gòu)的模型在訓(xùn)練計(jì)算量(training FLOPs)達(dá)到一定量級(jí)時(shí),模型性能才出現(xiàn)向上的“拐點(diǎn)”,因此在 大模型訓(xùn)練任務(wù)中,算力成為必須的基礎(chǔ)性資源。但隨著模型越來(lái) 越大,算力成本越來(lái)越高,成本飆升源于模型復(fù)雜度和數(shù)據(jù)量攀升 對(duì)計(jì)算資源的需求。Anthropic 首席執(zhí)行官表示,三年內(nèi) AI 模型的 訓(xùn)練成本將上升到 100 億美元甚至 1000 億美元。巨額的大模型訓(xùn) 練投入一定程度減緩了技術(shù)進(jìn)步和效益提升,因此技術(shù)路徑破局尤 為關(guān)鍵。當(dāng)前 MoE 以及 OpenAI o1 的“思維鏈”是重要探索實(shí)踐。
MoE 框架是對(duì) Transformer 架構(gòu)的優(yōu)化,關(guān)鍵在于路由策略及微 調(diào)。其能在不給訓(xùn)練和推理階段引入過(guò)大計(jì)算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型語(yǔ)言模型(LLM)中,每個(gè) 混合專家(MoE)層的組成形式通常是𝑁個(gè)“專家網(wǎng)絡(luò)”搭配一個(gè)“門 控網(wǎng)絡(luò)”G。門控函數(shù)(也被稱路由函數(shù))是所有 MoE 架構(gòu)的基礎(chǔ) 組件,作用是協(xié)調(diào)使用專家計(jì)算以及組合各專家的輸出。根據(jù)對(duì)每 個(gè)輸入的處理方法,該門控可分為三種類型:稀疏式、密集式和 soft 式。其中稀疏式門控機(jī)制是激活部分專家,而密集式是激活所有專 家,soft 式則包括完全可微方法,包括輸入 token 融合和專家融合。
MoE 在 NLP、CV、語(yǔ)音識(shí)別以及機(jī)器人等領(lǐng)域表現(xiàn)出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果顯著。
OpenAI o1 基于“思維鏈”的創(chuàng)新推理模式,學(xué)會(huì)人類“慢思考”, 專業(yè)領(lǐng)域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在于擁有人類“慢思考”的特質(zhì):系統(tǒng)性、邏輯性、批判性、 意識(shí)性。在響應(yīng)用戶提出的難題之前,OpenAI o1 會(huì)產(chǎn)生一個(gè)縝密 的內(nèi)部思維鏈,進(jìn)行長(zhǎng)時(shí)間的思考,完善思考過(guò)程、意識(shí)邏輯錯(cuò)誤、 優(yōu)化使用策略、推理正確答案。這種深度思考能力在處理數(shù)學(xué)、編 程、代碼、優(yōu)化等高難度問(wèn)題時(shí)發(fā)揮重要作用,能夠進(jìn)行博士級(jí)別 的科學(xué)問(wèn)答,成為真正的通用推理。推理側(cè)的應(yīng)用模式創(chuàng)新有望在 更為專業(yè)的領(lǐng)域創(chuàng)造價(jià)值應(yīng)用,從通用的偏娛樂(lè)領(lǐng)域逐步過(guò)渡到偏 嚴(yán)肅的專業(yè)領(lǐng)域場(chǎng)景,AI 大模型的真正實(shí)踐價(jià)值有望進(jìn)一步釋放, 因此 o1 模型提供的新應(yīng)用范式和能力維度在大模型技術(shù)路線演繹 中,具有里程碑意義。
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動(dòng)機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書(shū)館機(jī)器人 導(dǎo)引機(jī)器人 移動(dòng)消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺(tái)機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤(rùn)機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |