天天訊息:高中教師養(yǎng)出40億美元超級(jí)獨(dú)角獸,Stable Diffusion背后數(shù)據(jù)集創(chuàng)建者,還發(fā)布ChatGPT最大平替

2023-04-30 16:43:43來(lái)源:引領(lǐng)外匯網(wǎng)

高中教師養(yǎng)出40億美元超級(jí)獨(dú)角獸,StableDiffusion背后數(shù)據(jù)集創(chuàng)建者,還發(fā)布ChatGPT最大平替,還沒收過一分錢

還沒收過一分錢


(相關(guān)資料圖)

編者按:本文來(lái)自微信公眾號(hào) 量子位(ID:QbitAI),作者:楊凈,創(chuàng)業(yè)邦經(jīng)授權(quán)轉(zhuǎn)載

他本是一位普普通通的高中教師,卻活生生養(yǎng)出一個(gè)估值40億美元獨(dú)角獸。

而且方法也是非常的獨(dú)特——

打造了世界最大的免費(fèi)開源數(shù)據(jù)集,卻從未從中收取過一分錢,也婉拒了各類工作的邀請(qǐng)。

他叫舒曼,在德國(guó)漢堡市的高中教物理和計(jì)算機(jī)科學(xué)。

兩年前他創(chuàng)立了LAION(相當(dāng)于CLIP圖文數(shù)據(jù)集),如今被用于各種生成模型,包括谷歌Imagen、Parti,以及驚艷全球的Stable Diffusion。

就連Stable Diffuision背后公司Stability AI的創(chuàng)始人曾親自來(lái)送錢時(shí),他都表現(xiàn)出嗤之以鼻的樣子,認(rèn)定“這個(gè)人一定是瘋了”。

或許他怎么也沒想到,只不過兩年前靈機(jī)一動(dòng),就帶來(lái)了生成式AI的劇變。

受DALL-E啟發(fā)

2021年新年之際,OpenAI重磅推出DALL-E,GPT-3首次成功實(shí)現(xiàn)跨界:

一時(shí)間風(fēng)光無(wú)兩,吳恩達(dá)在內(nèi)的科技大佬們都激動(dòng)了,網(wǎng)友們都稱其為甲方克星。

但在德國(guó)漢堡市郊區(qū)的一間房屋內(nèi),這位高中教師舒曼(Christoph Schuhmann)卻產(chǎn)生了對(duì)數(shù)據(jù)私有化的擔(dān)憂:

當(dāng)時(shí),OpenAI發(fā)表了背后關(guān)鍵模型CLIP的論文。論文中顯示,CLIP在4億個(gè)圖像-文本對(duì)上進(jìn)行了預(yù)訓(xùn)練,在沒有精細(xì)調(diào)整的情況下,最終在各種多模態(tài)基準(zhǔn)中實(shí)現(xiàn)高性能。

由此可見數(shù)據(jù)集對(duì)于CLIP的重要性,但OpenAI并沒有進(jìn)行公開,它只開源了CLIP的代碼和模型權(quán)重。

(看來(lái)從那時(shí)候就已經(jīng)變得Close了)

于是乎,舒曼就開始在Discord網(wǎng)羅了一群同為AI愛好者的朋友,嘗試復(fù)制OpenAI同等水平的「文本-圖像對(duì)」數(shù)據(jù)集。

沒想到這一搞就搞了大半年,直到2021年8月他們首次發(fā)布了LAION-400M數(shù)據(jù)集,里面包含了4.13億圖像-文本對(duì)。

回顧整個(gè)創(chuàng)建過程,舒曼對(duì)彭博社這樣形容:

他們用一個(gè)非盈利組織Common Crawl在2014年到2021年期間,抓取的隨機(jī)HTML代碼來(lái)定位網(wǎng)絡(luò)上的圖像,并將這些圖像與描述性文本聯(lián)系起來(lái),最后還得根據(jù)一定規(guī)則來(lái)過濾掉不適合的樣本。

比如,刪除了所有文本長(zhǎng)度少于五個(gè)字符;圖像小于5KB的的樣本;關(guān)鍵字帶有NSFW的……幾周之內(nèi),他們就擁有了300萬(wàn)對(duì)圖文對(duì)。

數(shù)據(jù)集發(fā)布之后就收到了各種反響,被用于諸多論文和實(shí)驗(yàn)。其中最具代表性的,就是Google Brain去年(2022)發(fā)布的Imagen——文本生成圖像的擴(kuò)散模型。

與此同時(shí),更多機(jī)構(gòu)開始關(guān)注到這個(gè)非盈利組織并給予資金支持。2021年他們就收到了HuggingFace的一次性捐贈(zèng)。

但印象最深的一次,還要屬一個(gè)對(duì)沖基金經(jīng)理來(lái)到Discord聊天室。

當(dāng)時(shí)他二話不說直接送錢,大概意思是:我給你們支付算力費(fèi)用,沒有任何附加條件。

舒曼團(tuán)隊(duì)對(duì)這個(gè)行為嗤之以鼻,甚至覺得他是個(gè)瘋子:

后來(lái),這個(gè)所謂的“瘋子”創(chuàng)辦了Stability AI,使用LAION數(shù)據(jù)集推出了Stable Diffusion,引領(lǐng)了生成式AI的浪潮,順便還拐走了LAION組織的兩個(gè)研究人員。

如今Stability AI正在尋求40億美元(折合276億元)估值,這主要?dú)w功于LAION提供的數(shù)據(jù)。

據(jù)彭博社消息,舒曼卻并沒有從LAION中獲利,原因很簡(jiǎn)單:不感興趣,希望保持這份工作的獨(dú)立性。

因此他還婉拒了各類工作邀請(qǐng),依舊選擇在德國(guó)漢堡當(dāng)一名普普通通的高中老師。

本人:數(shù)據(jù)集不應(yīng)該被監(jiān)控

即便如此,隨著LAION知名度打響,他還是避免不了地卷入到各種紛擾之中。

目前,LAION已經(jīng)發(fā)布了10項(xiàng)數(shù)據(jù)集,最具代表性的就是去年3月發(fā)布的LAION-5B,由58.5億個(gè)圖像文本組成,是當(dāng)前最大的免費(fèi)開源數(shù)據(jù)集。

作為L(zhǎng)AION-400M的繼任者,它收到了來(lái)自HuggingFace、Stability AI以及Doodlebot資助。

結(jié)果一發(fā)布就遭到了不小的爭(zhēng)議,網(wǎng)友們紛紛質(zhì)疑其數(shù)據(jù)未經(jīng)整理,導(dǎo)致充斥大量的非法內(nèi)容,對(duì)此LAION工程師Romain Beaumont回應(yīng):

早在Imagen發(fā)布時(shí),也專門針對(duì)LAION-400M做出警示:因?yàn)橐蕾囉谶@種未經(jīng)整理的網(wǎng)絡(luò)數(shù)據(jù), 集成了大模型的社會(huì)偏見和限制,因此不適合公開使用。

據(jù)彭博社消息,為了打造LAION,舒曼團(tuán)隊(duì)從亞馬遜網(wǎng)絡(luò)服務(wù)、Shopify等公司獲取視覺數(shù)據(jù),還有包括YouTube縮略圖、各類新聞網(wǎng)站上的內(nèi)容。

對(duì)此舒曼表示,任何在網(wǎng)上免費(fèi)提供的東西都是公平競(jìng)爭(zhēng),歐盟也沒有人工智能法規(guī)。

更何況,也沒有人知道OpenAI實(shí)際上用什么樣的數(shù)據(jù)集訓(xùn)練AI的。

目前,LAION被迫卷入兩場(chǎng)訴訟之中,一起是Stability AI與Midjourney等集體訴訟,被指使用藝術(shù)家的版權(quán)圖片來(lái)訓(xùn)練他們的模型;

另一起是Getty Images起訴Stability AI,稱其1200萬(wàn)張照片被LAION取走,并用來(lái)訓(xùn)練Stable Diffusion。

而舒曼將LAION比作大信息技術(shù)海嘯之上一艘“小型研究船”,采取海下的樣本向世界展示。

其實(shí)早在構(gòu)建數(shù)據(jù)庫(kù)時(shí),他們就在運(yùn)行一個(gè)自動(dòng)化過濾工具,不過舒曼感興趣的不是清理,而是從這些資產(chǎn)中學(xué)習(xí)。

現(xiàn)在更多關(guān)于監(jiān)管的建議在推動(dòng),各個(gè)科技大廠也在采取相應(yīng)的措施,比如英偉達(dá)就開源了護(hù)欄工具,來(lái)防止大模型來(lái)胡說八道。

但在舒曼看來(lái),數(shù)據(jù)集不應(yīng)該被監(jiān)控。這也正是當(dāng)時(shí)創(chuàng)建LAION時(shí)候的初心。

他還警告,如果我們?cè)噲D放慢速度、過度監(jiān)管,就會(huì)有很大的危險(xiǎn),最終只有少數(shù)大公司能負(fù)擔(dān)得起所有的正式要求。

前段時(shí)間,在LAION與全球志愿者的合力之下,他們完成了ChatGPT最大開源平替OpenAssistant的發(fā)布。

60萬(wàn)余條訓(xùn)練數(shù)據(jù)全部由人工生成,涵蓋了廣泛的話題和語(yǔ)言風(fēng)格,一時(shí)間引發(fā)眾人關(guān)注,HuggingFace也直接拿來(lái)用來(lái)構(gòu)建它自己的聊天軟件HuggingChat。

拿著德國(guó)鐵飯碗

不可否認(rèn)的是,他已經(jīng)在用開源數(shù)據(jù)集,加劇了生成式AI的浪潮。

但在舒曼的個(gè)人網(wǎng)站上,看到的只是一位兩個(gè)孩子的父親,在德國(guó)當(dāng)著終身制公務(wù)員,游走于中學(xué)校之間講授物理和計(jì)算機(jī)科學(xué)。

舒曼擁有維也納大學(xué)計(jì)算機(jī)科學(xué)與物理學(xué)學(xué)位。在學(xué)習(xí)這兩個(gè)專業(yè)之前,他還學(xué)了心理學(xué)。(大概完成了50%的學(xué)士學(xué)位然后就轉(zhuǎn)專業(yè)了)。

除此之外,他還在學(xué)習(xí)表演,制作了一部關(guān)于孩子學(xué)習(xí)的紀(jì)錄片「Schools of Trust」。

參考鏈接:

[1]https://laion.ai/blog/laion-400-open-dataset/

[2]https://www.bloomberg.com/news/features/2023-04-24/a-high-school-teacher-s-free-image-database-powers-ai-unicorns

[3]http://christoph-schuhmann.de/

[4]https://www.infoq.com/news/2022/05/laion-5b-image-text-dataset/

[5]https://laion.ai/projects/

關(guān)鍵詞:

責(zé)任編輯:hnmd004