AI先驅(qū)Andrew Ng正在呼吁全球向更加以數(shù)據(jù)為中心的機(jī)器學(xué)方法轉(zhuǎn)變。他舉辦了首屆以數(shù)據(jù)為中心的AI數(shù)據(jù)質(zhì)量競(jìng)賽。許多人認(rèn)為數(shù)據(jù)質(zhì)量占AI工作的80%。
Andrew Ng在他的新聞通訊文章The Batch中寫道:“我相信AI社區(qū)很快就會(huì)像對(duì)待構(gòu)建模型一樣,對(duì)系統(tǒng)地改善數(shù)據(jù)產(chǎn)生興趣。”
通過合成數(shù)據(jù)采取以數(shù)據(jù)為中心的方法來開發(fā)模型是一個(gè)迭代的流程。工程師對(duì)完成訓(xùn)練的模型進(jìn)行評(píng)估并確定數(shù)據(jù)集的改進(jìn),然后他們將生成新的數(shù)據(jù)集并啟動(dòng)新的訓(xùn)練周期。
這個(gè)產(chǎn)生數(shù)據(jù)、訓(xùn)練模型、評(píng)估模型并產(chǎn)生更多數(shù)據(jù)的流程會(huì)一直持續(xù)到模型符合要求為止。
由于每次迭代中的數(shù)據(jù)都是在模擬中生成,而不是在現(xiàn)實(shí)世界中收集然后標(biāo)記,因此加快了模型訓(xùn)練的速度。
這些可以大規(guī)模生成的數(shù)據(jù)集以訓(xùn)練工具可以直接使用的格式輸出。此功能無需再對(duì)數(shù)據(jù)進(jìn)行額外的預(yù)處理。