分類
REVIEW

陳家煜 : AI數據難求


最近和一個大學數學教授聊天,他說他們有剛畢業的數學博士,在AI公司上班,做很像之前把圖片標記,讓AI有圖像數據處理的工作。當然數學博士不是幹這種中國大媽做的數據標記,但也是標記,只是看著AI的inference結果,人工地評估結果好不好,標記完再餵回給AI模型訓練用。我不知道這是不是大材小用,但如果現在AI自己可以當agent來思考、評估結果,但還是需要博士級的勞工來做這個事,顯然agent還沒到這能力,又或者是,模型訓練的再精進,需要的是更多、更好的數據,而這數據,只有博士級的勞工給的起。

所以在AI的agent真的可以自我改進之前,前沿模型公司之間的戰爭,除了算力之外,還在數據。微軟的執行長最近一再反擊前沿模型公司,他反對Anthropic和OpenAI的一個重點是模型公司給你用模型,但要留存客戶的數據。想想看,軟體公司如微軟,工程師用Claude最多的地方就是寫程式,這些新的程式碼一條一條地從Claude吐出來,但Claude也一行一行的從微軟的知識庫裡拿出來,拿回他們家裡訓練新的模型,如果微軟幾十年和客戶往來的經驗、無數工程師絞盡腦汁生出來的程式碼,就這樣被Anthropic拿走了,那微軟的生意被搶走,也是時間早晚的問題。

為了保存數據、為了生存而反抗的公司,不會只有微軟。一如我之前說的,前沿公司發展更先進的模型,商機已經變小,橫向擴張、往下游去的機會比較大,所以這場前沿公司和軟體公司的商業大戰才剛要開始。各大公司自建專屬模型的策略非進行不可,所以懂得訓練模型的人力需求,會有爆炸性的增長,算力的需求不會減緩,好的數據也會有一片天。

原文出處