在大部分人看來,人工智能是個有些「科幻」的詞匯,代表小說電影中和人類長相相似、或溫柔或冷酷的機器人。
稍微熟悉一點,這份印象又變成冷冰冰的 GPU 陣列、復雜多層的神經網絡和一大串佶屈聱牙的專有名詞。能接觸它們的除了工程師,就是科學家。
也許這份印象需要再度刷新一次——人工智能,真的需要不少「人工」。
秦嬌今年剛滿 30 歲,幾個月前剛剛從呼叫中心跳槽到一家「數據加工」公司。雖然跨了行業,她并不覺得兩份工作有什么不同,都是按照甲方的要求和己方的工作節奏,把人手安排到一個又一個項目中去。
公司剛成立不到一年,眼下業務大多是標注數據,即根據項目方要求,人工為圖片、視頻和語音內容打標簽、做標記。標注好的數據會被人工智能公司用來訓練算法模型,然后應用到圖像識別、語音識別等不同領域。
通常來說,數據標注得越準確、數量越多,模型的效果就越好。自然,產品的效果就會更好。
一旦要求質量,每個人的產出量就不會太多。熟練者平均一天可以標注 40 張圖片,前提是只需要為圖片中的物體打框、標注類別和前后關系。如果涉及到刻畫建筑物邊緣等復雜細節,一天標注 10 張已是極限。但需要處理的數據訂單往往以「萬」為單位。最新的需求是 6 萬張圖片,7 天內完成。理論上這個訂單需要 214 個人共同工作 7 天,秦嬌手頭只有不到 100 個人,其中一部分還要完成其它項目。幾次秦嬌都對著電話那頭擺出不耐煩的神情,「你跟他說,要我去死好不好」。
與擁有 1,500 萬張標注圖片的數據集 ImageNet 相比,只有 6 萬張圖片的項目顯得十分渺小。不過大部分人可能很難想象,是來自 167 個國家的 48,940 名工作者,花費了 2 年時間,清理、分類、標記了近十億張通過互聯網搜集到的圖片,才得到這個有 1,500 萬張圖片的數據集。其所耗費的時間與人力,遠非一般項目可比。
數據龐大又開源,ImageNet 很快成為成為研究圖像識別的首選。不論 Andrew Ng(吳恩達)還是 Jeff Dean,涉足這一領域研究者都使用過 ImageNet。但 ImageNet 有自己的弱點,標注框太大、標注方式少和不時出現的錯誤,使它難以被用來訓練實際應用的算法模型。
人工智能公司們必須想盡辦法,積累符合自身應用方向,標注得更細致、更準確的數據。在初創公司招聘工程師的需求中,「有收集標注數據的能力」有時也會被寫進其中。某種程度上,高質量的標注數據決定了一家人工智能公司競爭力。
盡管互聯網的確催生了浩如煙海的內容,但標注這件需要耐心和專注的「小事」,暫且還要靠人的幫忙。