陳家煜 : AI數據難求

最近和一個大學數學教授聊天，他說他們有剛畢業的數學博士，在AI公司上班，做很像之前把圖片標記，讓AI有圖像數據處理的工作。當然數學博士不是幹這種中國大媽做的數據標記，但也是標記，只是看著AI的inference結果，人工地評估結果好不好，標記完再餵回給AI模型訓練用。我不知道這是不是大材小用，但如果現在AI自己可以當agent來思考、評估結果，但還是需要博士級的勞工來做這個事，顯然agent還沒到這能力，又或者是，模型訓練的再精進，需要的是更多、更好的數據，而這數據，只有博士級的勞工給的起。

所以在AI的agent真的可以自我改進之前，前沿模型公司之間的戰爭，除了算力之外，還在數據。微軟的執行長最近一再反擊前沿模型公司，他反對Anthropic和OpenAI的一個重點是模型公司給你用模型，但要留存客戶的數據。想想看，軟體公司如微軟，工程師用Claude最多的地方就是寫程式，這些新的程式碼一條一條地從Claude吐出來，但Claude也一行一行的從微軟的知識庫裡拿出來，拿回他們家裡訓練新的模型，如果微軟幾十年和客戶往來的經驗、無數工程師絞盡腦汁生出來的程式碼，就這樣被Anthropic拿走了，那微軟的生意被搶走，也是時間早晚的問題。

為了保存數據、為了生存而反抗的公司，不會只有微軟。一如我之前說的，前沿公司發展更先進的模型，商機已經變小，橫向擴張、往下游去的機會比較大，所以這場前沿公司和軟體公司的商業大戰才剛要開始。各大公司自建專屬模型的策略非進行不可，所以懂得訓練模型的人力需求，會有爆炸性的增長，算力的需求不會減緩，好的數據也會有一片天。

原文出處

分享此文：

相關