剛剛過去的1024程序員節(jié),小紅書Red Academy和小紅書科技發(fā)起了一場直播,在這場直播里,小紅書技術(shù)副總裁凱奇、小紅書語音模型技術(shù)負責人風龍,攜手Hugging Face聯(lián)合創(chuàng)始人Thomas Wolf,以最近流行的AMA(Ask Me Anything)形式,進行了一場關(guān)于技術(shù)、AI與未來的深度對談。
這場對談圍繞三大核心觀點展開:
AI Coding正成為基礎(chǔ)能力;
開源是技術(shù)加速發(fā)展的核心引擎;
實現(xiàn)有“活人感”的AGI路徑清晰但仍需攻克諸多難題。
從這三個觀點出發(fā),三位嘉賓關(guān)于以下幾個話題進行了討論和分享:
開源與閉源:三位嘉賓一致認為開源是推動技術(shù)前進的強大引擎。小紅書正投身其中,從文本模型、多模態(tài)模型到FireRed系列語音模型,初衷是為讓更多開發(fā)者和中小企業(yè)能共享技術(shù)紅利。
AGI與未來:通用人工智能將會到來,但發(fā)展路徑仍有挑戰(zhàn),例如在創(chuàng)造力、復(fù)雜環(huán)境感知和數(shù)據(jù)等方面仍有瓶頸。
如何讓AI更有“人味”:凱奇分享了小紅書引入“人文訓(xùn)練師”的實踐,致力于讓AI的交互更自然、更貼心,真正融入小紅書這個充滿“活人感”的社區(qū)。
AI時代的個人能力:技術(shù)人的核心競爭力正轉(zhuǎn)向“定義問題”和“框架性解決”的能力;AI不僅是效率神器,也讓非技術(shù)背景的人擁有了“指揮”計算機實現(xiàn)想法的能力。

以下是直播對話摘錄:
Q: 怎么看大模型時代的開源和閉源?
Thomas Wolf:開源和閉源差距在縮小,中國在這方面比較領(lǐng)先。現(xiàn)在也發(fā)現(xiàn),很多其他國家的人會開始從一個開源模型著手。開源能打造一個圍繞模型的社群,讓更多人使用,更高效地幫助他們。閉源就是需要更多的一些時間來去開發(fā)出一些好的模型。
風龍:整個的開源其實是推著技術(shù)往前走的,推著技術(shù)不斷的往下發(fā)展。開源才是動用了大家的力量,眾人眾人拾柴火焰高。語音技術(shù)發(fā)展經(jīng)歷開源工具如HTK、Kaldi、Wenet、FireRed等,推動技術(shù)前進。閉源對商業(yè)公司無可厚非,但可能是暫時性選擇。
凱奇:AI開源與代碼開源還挺不同的,更關(guān)注模型權(quán)重和制作過程公開。開源降低社會運用AI成本,互幫互助,整體上降低了整個社會去運用AI的成本。
Q: 小紅書做了哪些開源?為什么這么選擇?
凱奇:今年6月小紅書開源了文本模型1.0版本,是hi lab第一個MoE模型。8月開源多模態(tài)模型,性能對標Gemini和Seed。開源dots OCR模型,在hugging face熱門榜排第4。
風龍:語音模型方面,我們開源了在50多個benchmark綜合排名第一的大模型語音識別系統(tǒng)FirRedASR;開源了面向?qū)υ捈伴L播客生成的大模型語音合成系統(tǒng)FireRedTTS業(yè)務(wù),在播客生成開源領(lǐng)域達到了sota的效果;也首次開源了一套完整的可私有化部署的大模型人感語音交互系統(tǒng)。這些模型都受到了很多好評。我們想讓中小型公司和獨立開發(fā)者,也能享受這種玩大模型的樂趣,所以我們會做一些大模型,打破相對的技術(shù)壟斷。我們從社區(qū)里面汲取了營養(yǎng)。我們也覺得需要把技術(shù)公開出來,一方面是聽取社區(qū)給模型的反饋,來知道模型到底做得怎么樣。

Q: 怎么看AGI的實現(xiàn)和想象,通往AGI上有哪些瓶頸?
Thomas Wolf:AGI不會立刻實現(xiàn),會有多功能、全方位的提升。未來應(yīng)用包括機器人、大語言模型、語音識別。AGI也能夠創(chuàng)建一些我們之前沒概念的東西,比如新游戲、新體驗。同時能夠打造全新的科學(xué)發(fā)展,發(fā)明新科學(xué)。
AGI的一個瓶頸是模型缺乏創(chuàng)造力。當你有一個問題時,它們非常擅長解決問題,但要求它們發(fā)明一個新問題時,例如想在科學(xué)上取得重大突破時,就需要找到正確的問題來提出,而LLM模型目前非常不擅長提出好問題的。
風龍:5-10年內(nèi)可能看到曙光,但路上還有種種曲折,但如果要真的實現(xiàn)電影《Her》里面的人工智能想象,還需要解決非常多的問題 比如硬件、甚至一個簡單的藍牙數(shù)據(jù)傳輸穩(wěn)定性都需要持續(xù)提升
凱奇:關(guān)鍵轉(zhuǎn)折點是AI能否改進自己。如果可以做到,只要有算力,就可以不停的自我改進,智力增長會非常非常的快。障礙有context bottleneck和非智力因素瓶頸。
Q:你怎么看技術(shù)進展的速度?是在變慢嗎?
Thomas Wolf:可能有一點。我想很多人對最近的模型有點失望。幸好有新一波的推理模型提供了新范式。但我們構(gòu)建的AI仍然是非常聽話的學(xué)生,它們按照我們的要求做,但對應(yīng)該做什么幾乎沒有好想法,所以仍非常需要人類來指明方向。至少在當前,需要人來給出要解決的問題,我們需要給出前進方向,給出要做什么的創(chuàng)造性想法。所以我建議,要讓知道自己該做什么的人使用這些模型,這樣就能很好地理解它。

Q: 在技術(shù)產(chǎn)品中如何保持人情味?如何讓AI保持人感?
凱奇:當前AI回答有時候會有點冷冰冰、缺乏同理心。小紅書是大家稱之為一個有“活人感”的社區(qū),所以在小紅書用AI的時候,我們也希望這個AI也是更有活人感的。會通過后訓(xùn)練和RL算法調(diào)整行為,用人文訓(xùn)練師教會AI更有人感回答。
Thomas Wolf:情感非常重要,需要更好數(shù)據(jù)來做情感輸出,當前的瓶頸是數(shù)據(jù)量不夠。可以做的是:看待AI答案要有批判性,同時也要評估AI的錯誤率。
風龍:語音模型中會加入情緒感知和環(huán)境音感知生成情感反饋語音。我們會分析目前這句話到底有沒有表達出情緒,是開心的還是有一點悲傷的?還是說有一點憤怒?我們也有能主動感知對話中用戶情緒的TTS,如果用戶當下很難過,那AI回復(fù)的語音就會帶有安慰的情感。
Q:對于個人或團隊,推薦哪些AI小項目方向,如何構(gòu)建壁壘?
凱奇:發(fā)揮專業(yè)領(lǐng)域知識,解決context bottleneck,挑選合適context喂給AI。怎么挑選哪些context扔給它,這個是很重要的。
Thomas Wolf:這是一個高度數(shù)據(jù)驅(qū)動的世界和領(lǐng)域。所以第一步始終應(yīng)該是:嘗試為我們想要衡量的東西建立一個良好的評估標準。有了標準然后才能看清你想朝哪個方向發(fā)展,進入哪個領(lǐng)域,甚至決定是否應(yīng)該使用AI。
Q: 對于非技術(shù)同學(xué),在AI浪潮下有什么建議?
風龍:AI降低實現(xiàn)產(chǎn)品門檻,非技術(shù)同學(xué)也可以一個人做產(chǎn)品。人人都真的可以一個人做產(chǎn)品。
凱奇:產(chǎn)品同學(xué)多了一個強大武器,需學(xué)習(xí)AI技術(shù)邊界,了解prompt engineering、fine tune等手段。
Q: 怎么使用AI coding提效,怎么看待AI coding的發(fā)展?
風龍:在語音研究工作中需要大量測試網(wǎng)頁。之前的網(wǎng)頁都由語音研究員手寫,有了AI coding工具后,這種寫前端的工作完全可以用現(xiàn)成工具完成,大大節(jié)省時間。
凱奇:寫demo程序時,用AI做refactor或熟悉API,可以直接扔文檔讓它寫代碼,非常提效。AI coding讓非程序員也能操縱計算機達成目的。AI coding還處于早期階段,現(xiàn)在還沒那么好,但未來在程序架構(gòu)迭代和運維方面會更強。

Q: AI浪潮下,技術(shù)人的變與不變?
風龍:技術(shù)人還要找到核心競爭力,AI coding只是工具箱中的一個工具。看到一個大的應(yīng)用問題后,不變的是要想怎么去拆解,怎么用工具箱里面工具把它做好。
凱奇:未來世界上只有會用AI的人和不會用AI的人兩種,技術(shù)同學(xué)在會用AI這塊是很有優(yōu)勢的。技術(shù)人需提升通用問題解決能力和產(chǎn)品sense,發(fā)現(xiàn)和定義問題比具體怎么做更重要。
Q: 學(xué)習(xí)新技術(shù)有什么好的方法和建議?
風龍:很多時候我們覺得可能要自己ready了再去做一件事,但是往往我們其實就是learning by doing。跟蹤最新論文、與同行交流、公司內(nèi)部討論。
凱奇:用AI陪看論文非常提效,能很快幫我推導(dǎo)公式和分析邏輯,就能很方便地理解公式。Notebook LM可以聽論文寫概要。

Q: 最近兩個月,小紅書里刮起了AMA風,有什么體驗和有趣發(fā)現(xiàn)?
Thomas wolf:我是首次參加 AMA,很多人來問我應(yīng)該學(xué)什么專業(yè),應(yīng)該從事什么樣的工作,我覺得這個方式是非常好的一個方式,能讓很多行業(yè)里非常優(yōu)秀的人所聚集在一起,直接建立連接。
凱奇:在主頁上刷到了很多AMA的筆記,過去小紅書這個產(chǎn)品給大家的印象可能更多是偏生活向的,但這次AMA,在科技領(lǐng)域的興趣圈層也是有很好的爆發(fā)。我的一些朋友告訴我,他們現(xiàn)在都是在小紅書看論文,我覺得小紅書作為生活興趣社區(qū),的確正在變得越來越廣大。
風龍:我發(fā)了第一篇AMA筆記后,收到500多條評論問語音相關(guān)的問題,其中有人問我為什么社區(qū)里有這么多AMA帖子。我回答的是:因為優(yōu)秀的人總會和優(yōu)秀的人相遇。
*小紅書科技薯在今年9月策劃發(fā)起了AMA(Ask me anything)活動,這一玩法在小紅書上快速發(fā)酵——許多知名AI產(chǎn)品創(chuàng)業(yè)者、大廠負責人、高校教授等科技大咖紛紛在小紅書上發(fā)布“Ask me anything”的筆記,邀請用戶向自己提問,并積極在評論區(qū)互動、對話。

Q:如果回到30歲,會給自己什么建議?
Thomas Wolf:十年前,2015年那時我創(chuàng)辦了Hugging Face。我認為那是個好主意。所以我會說,去做你打算做的事,探索你所熱愛的。
風龍:如果回到30歲的時候,我會選擇在博士畢業(yè)后直接加入小紅書,享受挑戰(zhàn)和攀登珠峰的經(jīng)歷。
凱奇:要搞AI。
