我為什麼反對AI 論文強制開源代碼

我為什麼反對AI 論文強制開源代碼

我為什麼反對AI 論文強制開源代碼


資料來源: https://mp.weixin.qq.com/s?__biz=MzA5MDUyODMzOA==&mid=2447782556&idx=2&sn=19abdc0f87831a970e2c346cbd9b6089&chksm=8418dda1b36f54b7cc3ff08cb539fa9c55581da8ac452f40f5fea333be0b23190eead2133358&scene=126&sessionid=1587947736&key=9a020dbee7bc737ee4c0b83c283d82e56efc0c122cd8f4a3b4617e4d37cedb889d5f46116959d856ac640cc3ef5d7034cae01a379db02077385114308c31d3f05b1f981df4e178970864c3126c80ae8c&ascene=1&uin=MjIwODk2NDgxNw%3D%3D&devicetype=Windows+10+x64&version=62090070&lang=zh_TW&exportkey=Aq1q2DZz8CyN87nFd4FLtPc%3D&pass_ticket=rWTfZIG0I%2F16xXhvSzn%2BIbQgF4MbGlLEtGQ%2FRPJvD0EA%2BmpkYl3v8GDkujWDqqOc


AI論文,到底該不該強制開源代碼?

NeurIPS 2020官方近日發布了一份開源指南。從2019開始,NeurIPS就“強烈建議”提交論文代碼,不過仍非強制。



但無論如何,官方傳達出了一種信號:AI學術頂會開源代碼已是行業趨勢。

NeurIPS此舉也引發了一場“年經”式的討論:如果將來學術會議要求必須開源,投稿人應該拒絕嗎?

而讓人始料未及的是,不少網友認為:不開源,我有理。



我話講完了 誰贊成 誰反對.gif(電影:黑金經典橋段)

反對一:代碼並沒有那麼重要
    首先,開源代碼的目的是什麼?是為了讓其他研究者可以復現結果。

    如果一篇論文包含足夠多的細節,那麼別人就可以根據其中的公式自己寫出代碼,對於這類論文,可以不公開代碼。不過前提必須是提供足夠多的細節。

    比如穀歌的AlphaGo就沒有開源代碼,但是沒有人懷疑它的正確性,事實上也有很多人根據谷歌論文復現了AlphaGo。

    而且作者本人的代碼可能會出現錯誤,不開源的一個好處就是讓其他研究者獨立復現。

    萬一作者在代碼裡挖了個不明顯的“坑”,其他人也可以規避,防止被帶到溝裡。

    另外,也不要高估代碼的價值,經典論文可以幾十年長盛不衰,但是代碼很可能十年後就難以運行了。

    當然,還有一種觀點就是,對於AI來說,數據集更重要。沒有數據的代碼是沒有價值的,而很多數據集沒法開放,這意味著你即使拿到代碼,也無法復現SOTA結果。



反對二:要為作者考慮
    不開源同時也是為了照顧作者的種種特殊情況。

    比如一些研究者是從事純理論的研究。有一個網友就說,他甚至都不知道怎麼構建Docker容器,雖然發表了多篇論文都在GitHub上開源了代碼,但它從來不維護。

    所以,論文是否開源應該根據代碼對於文章的重要性而定,不該一刀切。

    還有一些商業公司的研究者,他們在寫論文的時候用到了公司內部專有軟件庫,如果強制開源,他們必須從頭再寫一遍代碼,費時費力,對這些人也是不公平的。

    還有一些作者,本身並不是不想開源,而是希望能夠將成果保護一段時間,在論文發布幾個月後再開源代碼,這對於從事醫療、法律領域的學者很重要。

    綜上所述,反方網友認為,強制開源過於極端,應該對論文開源持鼓勵態度,而不是強制。


支持開源:不開源怎能讓人信服
    首先是一名從事石油行業的網友說,他們行業的數據都是商業機密,所以不會發布任何數據和代碼,甚至會在文章中丟掉一些公式來隱藏成果,還聲稱98%的正確率。結果怎能讓人信服。

    他認為不公開數據和代碼,就像把一篇論文中所有的關鍵要素都刪了,這樣的研究即使發表出來也毫無價值。

    還有一些人認為,強制開源會改變其他行業對機器學習的偏見。

    很多其他學科的人都把機器學習看成偽科學,這是為什麼?因為AI領域的論文發布過程非常不成熟。

    科學方法的關鍵是一致性和可重複性。追逐單一的指標,每個人都對SOTA著迷,這是一個巨大的問題。

    而開源是解決此問題的一種方法。

    去年,AI知名女學者Anima Anandkumar曾在個人博客裡公開喊話,強烈反對發論文卻不給代碼的行為,呼籲學術會議強制要求投稿同時必須公開代碼。

    她認為不開源代碼不利於評審論文,不利於對論文造假的追責,更不利於行業開放競爭。

發表迴響

你的電子郵件位址並不會被公開。 必要欄位標記為 *