伊人久久大香线蕉综合色狠狠-国产三区二区一区久久-久久se精品一区二区-国产精品免费播放一区二区

中國金屬材料流通協(xié)會,歡迎您!

English服務(wù)熱線:010-59231580

搜索

中國信通院李蓀等:從“經(jīng)驗驅(qū)動”向“標(biāo)準(zhǔn)驅(qū)動”,推動人工智能高質(zhì)量數(shù)據(jù)集建設(shè)

  隨著大模型技術(shù)的迅猛發(fā)展,數(shù)據(jù)集作為人工智能核心三要素之一,在算法趨同、算力普惠的競爭環(huán)境中正在構(gòu)建難以復(fù)制的差異化壁壘。高質(zhì)量數(shù)據(jù)集的建設(shè)是提升AI模型性能的關(guān)鍵,也是推動“人工智能+”行動落地的保障,標(biāo)志著人工智能發(fā)展正在進(jìn)入“數(shù)據(jù)驅(qū)動”新階段。


一、高質(zhì)量數(shù)據(jù)集成為人工智能應(yīng)用升級的核心要素

1. “人工智能+數(shù)據(jù)要素”協(xié)同推動高質(zhì)量數(shù)據(jù)集建設(shè)

  2025年2月,高質(zhì)量數(shù)據(jù)集建設(shè)工作啟動會在京召開,27個國家部委代表參加,會議落實“人工智能+”行動,推動高質(zhì)量數(shù)據(jù)集建設(shè),高效賦能行業(yè)發(fā)展。北京、遼寧、河北、貴州等地積極推動人工智能高質(zhì)量數(shù)據(jù)集建設(shè),開放重點行業(yè)領(lǐng)域數(shù)據(jù)集,打造“AI數(shù)據(jù)工廠”,為高質(zhì)量數(shù)據(jù)集的建設(shè)和應(yīng)用提供了有力的政策保障。


2. 大模型技術(shù)突破性進(jìn)展重構(gòu)了數(shù)據(jù)工程范式

  DeepSeek通過自動化推理和數(shù)據(jù)生成技術(shù),實現(xiàn)數(shù)據(jù)標(biāo)注方式的智能化升級;采用數(shù)據(jù)蒸餾技術(shù)提煉低質(zhì)數(shù)據(jù)有效信息,結(jié)合自動化篩選與人類專家反饋機(jī)制,形成“機(jī)器預(yù)處理+人工校準(zhǔn)”的雙層質(zhì)檢流程;運(yùn)用強(qiáng)化學(xué)習(xí)框架,聚焦推理能力培養(yǎng),構(gòu)建了包含60萬條推理型樣本與20萬條非推理型樣本的訓(xùn)練集,優(yōu)化模型架構(gòu)。


3. 數(shù)據(jù)已成為人工智能行業(yè)應(yīng)用落地的核心護(hù)城河

  在算法趨同、算力普惠的背景下,高質(zhì)量、高價值密度的數(shù)據(jù)資源構(gòu)建起企業(yè)差異化競爭力。垂直領(lǐng)域的數(shù)據(jù)壁壘通過業(yè)務(wù)場景閉環(huán)持續(xù)積累,形成模型性能的代際優(yōu)勢。“數(shù)據(jù)-算法-應(yīng)用”相互強(qiáng)化的生態(tài)閉環(huán)的形成,將確立難以復(fù)制的戰(zhàn)略壁壘。


二、高質(zhì)量數(shù)據(jù)集建設(shè)“三大難點”

  當(dāng)前,高質(zhì)量數(shù)據(jù)集建設(shè)正處于探索階段,主要面臨目標(biāo)定位模糊化、實施路徑碎片化與技術(shù)底座薄弱化三重挑戰(zhàn)。


1. 目標(biāo)定位模糊化

  數(shù)據(jù)集建設(shè)常陷入“為數(shù)據(jù)而數(shù)據(jù)”的誤區(qū),智能場景需求與數(shù)據(jù)集建設(shè)目標(biāo)脫節(jié),企業(yè)未將數(shù)據(jù)工程目標(biāo)與核心業(yè)務(wù)指標(biāo)深度綁定,導(dǎo)致數(shù)據(jù)價值難以轉(zhuǎn)化為模型性能提升。


2. 實施路徑碎片化

  從數(shù)據(jù)采集到模型訓(xùn)練的全鏈路缺乏系統(tǒng)性規(guī)劃和設(shè)計,無法形成體系化數(shù)據(jù)集構(gòu)建和維護(hù)機(jī)制,造成多源異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)難統(tǒng)一、跨部門跨層級難協(xié)作,致使清洗、標(biāo)注等數(shù)據(jù)處理成本激增。


3. 技術(shù)底座薄弱化

  現(xiàn)有數(shù)據(jù)處理技術(shù)難以應(yīng)對復(fù)雜人工智能場景需求,多模態(tài)數(shù)據(jù)處理能力不足,制約模型迭代與應(yīng)用規(guī)?;M瑫r,缺乏適配行業(yè)特性的工具鏈,自動化程度低,人力依賴嚴(yán)重,工程落地效率受阻,行業(yè)特性適配工具鏈缺失。


三、搭建人工智能數(shù)據(jù)工程能力“五大核心要素”

1. 組織管理

  全方位解決人工智能數(shù)據(jù)工程項目管理效率、團(tuán)隊協(xié)同能力以及技術(shù)應(yīng)用標(biāo)準(zhǔn)化等問題。


  一是項目管理。旨在通過科學(xué)規(guī)劃、精細(xì)執(zhí)行與靈活調(diào)整,確保高質(zhì)量數(shù)據(jù)集項目按時交付,成本可控。


  二是組織建設(shè)。旨在設(shè)計并實施一個高效、協(xié)同的組織結(jié)構(gòu),確保從數(shù)據(jù)采集到模型應(yīng)用的有效管理和支持。


  三是人才管理。旨在建設(shè)一支跨學(xué)科、跨專業(yè)、跨領(lǐng)域的交叉復(fù)合型的大模型數(shù)據(jù)工程人才團(tuán)隊。


  四是標(biāo)準(zhǔn)應(yīng)用。旨在圍繞大模型數(shù)據(jù)技術(shù)、平臺、應(yīng)用、管理、安全等方面,制定數(shù)據(jù)服務(wù)標(biāo)準(zhǔn)和操作規(guī)范。


2. 開發(fā)維護(hù)

  人工智能數(shù)據(jù)集構(gòu)建包括數(shù)據(jù)設(shè)計、數(shù)據(jù)采集匯聚、數(shù)據(jù)預(yù)處理、數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)檢等共性關(guān)鍵技術(shù)和環(huán)節(jié)。


  一是共性人工智能數(shù)據(jù)工程技術(shù)工具,構(gòu)建標(biāo)準(zhǔn)化底層能力。數(shù)據(jù)設(shè)計規(guī)劃階段,依據(jù)需求形成數(shù)據(jù)集設(shè)計方案和知識索引體系,梳理內(nèi)外部數(shù)據(jù)資源,形成模型數(shù)據(jù)資源地圖;數(shù)據(jù)采集匯聚階段,構(gòu)建多源異構(gòu)數(shù)據(jù)連接器,通過元數(shù)據(jù)管理實現(xiàn)數(shù)據(jù)血緣追蹤。預(yù)處理與標(biāo)注階段,研發(fā)自動化工具鏈,例如基于規(guī)則引擎的異常值清洗模塊、弱監(jiān)督標(biāo)注工具;質(zhì)量評估階段,建立“模型-數(shù)據(jù)”質(zhì)量反饋評估能力,聯(lián)動修復(fù)工具實現(xiàn)閉環(huán)優(yōu)化。


  二是定制人工智能數(shù)據(jù)工程技術(shù)方案,面向應(yīng)用的深度適配。預(yù)訓(xùn)練階段通過定向采集領(lǐng)域知識,結(jié)合數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充樣本多樣性,消除訓(xùn)練數(shù)據(jù)性別、地域等潛在偏見。指令微調(diào)階段開發(fā)任務(wù)導(dǎo)向的數(shù)據(jù)構(gòu)造工具,例如將用戶問答數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化思維鏈數(shù)據(jù)集。反饋對齊階段需搭建人類反饋閉環(huán)系統(tǒng),設(shè)計多維度評價指標(biāo),利用偏好學(xué)習(xí)模型對齊人工評價與模型輸出。此外,還需針對行業(yè)特性定制方案,確保數(shù)據(jù)工程與業(yè)務(wù)目標(biāo)深度耦合。


3. 質(zhì)量控制

  數(shù)據(jù)質(zhì)量直接決定大模型決策性能,需從評估準(zhǔn)則、技術(shù)工具與流程管控三方面系統(tǒng)性突破。


  一是評估準(zhǔn)則層面,需建立多維度的量化標(biāo)準(zhǔn)。除傳統(tǒng)數(shù)據(jù)質(zhì)量指標(biāo)外,需引入以模型訓(xùn)練為目標(biāo)的質(zhì)量評估。中國信通院建立“可信AI”人工智能數(shù)據(jù)集質(zhì)量評估體系(ADAQ),依據(jù)行業(yè)標(biāo)準(zhǔn)《面向人工智能的數(shù)據(jù)集質(zhì)量通用評估方法 總體要求》,涵蓋數(shù)據(jù)集完整性、規(guī)范性、準(zhǔn)確性、及時性、一致性等12個一級指標(biāo)和36個二級指標(biāo)。


  二是技術(shù)工具層面,需融合自動化與智能化手段。ADAQ體系自建人工智能數(shù)據(jù)集質(zhì)量評估工具平臺,按照“規(guī)則檢測+人工抽樣+模型效果”實現(xiàn)數(shù)據(jù)集質(zhì)量評估項目執(zhí)行。


  三是全流程監(jiān)控層面,需貫穿數(shù)據(jù)生命周期。從采集階段元數(shù)據(jù)追蹤,到預(yù)處理環(huán)節(jié)異常值實時清洗,再到模型訓(xùn)練質(zhì)量反饋閉環(huán)。ADAQ體系與“方升”大模型基準(zhǔn)測試體系形成協(xié)同,通過對比模型輸出與訓(xùn)練數(shù)據(jù)集,反向定位低質(zhì)數(shù)據(jù)區(qū)間并提出優(yōu)化機(jī)制。


4. 資源運(yùn)營

  構(gòu)建“資源管理、開放共享、流通交易”三位一體機(jī)制,破解數(shù)據(jù)資源“存不好、管不住、用不活”的難題。


  一是資源管理層面,需建立覆蓋數(shù)據(jù)全生命周期的管理框架。以“資源目錄”為索引,構(gòu)建高質(zhì)量數(shù)據(jù)集分類分級體系。采用模型專家和業(yè)務(wù)專家聯(lián)合的數(shù)據(jù)治理機(jī)制,按照模型需求梳理專業(yè)數(shù)據(jù)加工和標(biāo)注策略。


  二是開放共享層面,需考慮數(shù)據(jù)集和模型應(yīng)用場景雙重要素。完整呈現(xiàn)采集來源、環(huán)境參數(shù)、結(jié)構(gòu)規(guī)模、質(zhì)量指標(biāo)、隱私策略。明確開放時限、應(yīng)用范圍限制及版權(quán)協(xié)議,平衡開放力度與風(fēng)險管控。制定開放許可協(xié)議,規(guī)范數(shù)據(jù)供需方權(quán)責(zé)與使用方式。


  三是流通交易層面,符合現(xiàn)有交易流通機(jī)制,鼓勵模型數(shù)據(jù)生態(tài)合作。明晰權(quán)屬,構(gòu)建登記追溯體系,統(tǒng)一交易標(biāo)準(zhǔn)與合同范本,保障交易合規(guī)透明。鼓勵數(shù)據(jù)方和模型方合作共建,形成資源融合推動產(chǎn)品和應(yīng)用創(chuàng)新,建立共享聯(lián)盟與合作框架,形成協(xié)同共進(jìn)的流通生態(tài)。


5. 合規(guī)可信

  數(shù)據(jù)合規(guī)可信是大模型可信的基石,需從數(shù)據(jù)合規(guī)與數(shù)據(jù)可信雙向發(fā)力,確保數(shù)據(jù)應(yīng)用合法合規(guī)、版權(quán)清晰、質(zhì)量可靠、效果可溯。


  一是數(shù)據(jù)合規(guī)以安全性、法律遵循和版權(quán)規(guī)范為核心,覆蓋多重維度。數(shù)據(jù)需嚴(yán)格符合《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國個人信息保護(hù)法》《生成式人工智能服務(wù)管理暫行辦法》等相關(guān)法律法規(guī)。明確數(shù)據(jù)采集、生成、加工過程中的版權(quán)歸屬,避免權(quán)屬糾紛,規(guī)范數(shù)據(jù)使用與分發(fā)的版權(quán)授權(quán),確保數(shù)據(jù)來源合法,使用范圍符合授權(quán)約定。


  二是數(shù)據(jù)可信圍繞來源、治理、結(jié)果、效果構(gòu)建質(zhì)量閉環(huán)。來源可信強(qiáng)調(diào)真實性、準(zhǔn)確性、合法性,驗證數(shù)據(jù)采集過程的客觀性。治理過程可信要求方案與流程透明可解釋,治理規(guī)則清晰留痕,操作過程可追溯。結(jié)果可信要求數(shù)據(jù)分布合理,降低偏見樣本率、毒化樣本率,提升邊緣案例覆蓋度與標(biāo)注準(zhǔn)確性,避免因數(shù)據(jù)偏倚導(dǎo)致模型決策偏差。效果可通過模型訓(xùn)練效果驗證價值,對比治理前后模型的準(zhǔn)確率、泛化能力等表現(xiàn),以效果反推數(shù)據(jù)治理的有效性。


  人工智能邁向“數(shù)據(jù)驅(qū)動”的關(guān)鍵階段,人工智能數(shù)據(jù)工程能力建設(shè)也將從“經(jīng)驗驅(qū)動”向“標(biāo)準(zhǔn)驅(qū)動”的深刻變革。高質(zhì)量數(shù)據(jù)集不僅是模型性能提升的核心載體,更是激活數(shù)據(jù)要素價值、構(gòu)建智能生態(tài)的戰(zhàn)略基石。



作者簡介

李蓀,中國信息通信研究院人工智能研究所平臺與工程化部副主任,高級工程師。長期從事人工智能技術(shù)和產(chǎn)業(yè)相關(guān)研究,主要研究方向為人工智能數(shù)據(jù)、大模型、語音等方向,參與多項人工智能標(biāo)準(zhǔn)制定工作和多篇人工智能相關(guān)研究報告編制工作。


樊威,中國信息通信研究院人工智能研究所高級工程師。長期從事人工智能技術(shù)和產(chǎn)業(yè)相關(guān)研究,主要研究方向為人工智能高質(zhì)量數(shù)據(jù)集以及數(shù)據(jù)標(biāo)注相關(guān)政策、標(biāo)準(zhǔn)、產(chǎn)業(yè)研究,聚焦人工智能數(shù)據(jù)治理等領(lǐng)域方向,開展多項部委政策文件起草支撐工作,完成多項人工智能領(lǐng)域報告撰寫。


曹峰,中國信息通信研究院人工智能研究所平臺與工程化部主任,高級工程師。中國通信標(biāo)準(zhǔn)化協(xié)會TC1WG1(互聯(lián)網(wǎng)應(yīng)用總體及人工智能工作組)組長,人工智能關(guān)鍵技術(shù)和應(yīng)用評測工業(yè)和信息化部重點實驗室副主任。目前主要牽頭可信AI人工智能評測標(biāo)準(zhǔn)體系和能力建設(shè),牽頭工程化能力等相關(guān)評估規(guī)范制定與評測等。



返回列表