AI“瘋狂污染中文互聯(lián)網(wǎng)”，社交平臺(tái)管不了還是不想管？|世界新資訊

2023-06-22 06:19:56 來源: 娛樂資本論

這幾天，有人發(fā)現(xiàn)一個(gè)知乎用戶“百變?nèi)松悲偪竦厥褂肅hatGPT回答問題，回答速度極快，差不多每1、2分鐘就能搞定一個(gè)問題，甚至能在1分鐘之內(nèi)回答2個(gè)問題。這些生成后就從未過人工核查的答案，有些被必應(yīng)AI抓取，因此形成了誤導(dǎo)性的回答。

由此一來，“AI正在瘋狂污染中文互聯(lián)網(wǎng)”就成了一個(gè)熱門話題。不過，作為一家正在生產(chǎn)環(huán)節(jié)積極引入AIGC的文娛新媒體，我們娛樂資本論還是想重復(fù)那句聽起來可能很俗套的觀點(diǎn)：

“瘋狂污染中文互聯(lián)網(wǎng)”的不是AI，而是使用AI的人。

(資料圖片僅供參考)

很多人看到類似這樣的案例，就會(huì)自然產(chǎn)生一種要“管管”AI生成內(nèi)容的沖動(dòng)。我們對(duì)此有些不同看法：

平臺(tái)層面限制AI生成內(nèi)容，短期內(nèi)可能有必要，但長期來看就不一定了。

社交平臺(tái)并沒有真正的技術(shù)能力，來自動(dòng)“預(yù)判”和限制AI生成內(nèi)容。

當(dāng)AI生成內(nèi)容有可能“污染”大模型時(shí)，模型開發(fā)者應(yīng)該負(fù)起更多責(zé)任，而不是社交平臺(tái)。

一、為什么會(huì)發(fā)生這種事？

從知乎到必應(yīng)AI，這條神奇的鏈路是如何形成的？

必應(yīng)AI是最早一批聯(lián)網(wǎng)的大語言模型，很久以后才有谷歌的Bard和百度文心一言可以聯(lián)網(wǎng)。而ChatGPT官方聯(lián)網(wǎng)功能也是跟必應(yīng)合作，這使得必應(yīng)作為一個(gè)搜索引擎，對(duì)AIGC的意義非常特殊。

但必應(yīng)本身并不是一個(gè)很優(yōu)秀的搜索引擎。在某些中文問題上，必應(yīng)的檢索能力并不強(qiáng)于百度，可能只是廣告相對(duì)少一點(diǎn)；相對(duì)谷歌，必應(yīng)則有更大的劣勢。

中文互聯(lián)網(wǎng)更嚴(yán)重的“圍墻花園”現(xiàn)象，則讓搜索引擎的能力進(jìn)一步受限。目前已知必應(yīng)無法讀取微信公眾號(hào)文章，對(duì)頭條號(hào)、百家號(hào)等收錄也不完整。

必應(yīng)AI功能剛小范圍內(nèi)測時(shí)，甚至在百度官宣“文心一言”之前，知乎就已經(jīng)是其中文回答里最常見的參考來源。它內(nèi)容質(zhì)量相對(duì)較高，又不限制搜索引擎的抓取。

通過這種曲折的關(guān)系，知乎成為了一個(gè)對(duì)AI非常特殊的存在——一個(gè)“公版”的語料來源。

3-4月起，AI開始在各行各業(yè)開始替代人工寫作。在各個(gè)社交平臺(tái)上，這種替代的速度是不同的。

在微博、小紅書等地，它“入侵”文本內(nèi)容相對(duì)較慢。但知乎和公眾號(hào)、頭條號(hào)、百家號(hào)等平臺(tái)，內(nèi)容以中長篇文字為主，這些地方幾乎同步被“入侵”。

甚至，當(dāng)我就“AI污染中文互聯(lián)網(wǎng)”在微信“搜一搜”的時(shí)候，還可以搜到另一篇明顯出自GPT的“評(píng)論文章”，整件事情頗為行為藝術(shù)。

小紅書以及各家短視頻平臺(tái)，則更受困于AI生成圖片，及圖片堆砌成的視頻內(nèi)容。

對(duì)圖片的審核及事實(shí)核查難度始終高于文本。早在2022年8月，就有關(guān)于重慶山火的帖子被人指出“10張圖有8張是AI作畫，下面評(píng)論卻一片感動(dòng)哭了”。

Midjourney對(duì)一些知名人士的預(yù)訓(xùn)練相當(dāng)成功，以至于“特朗普被捕”系列“世界名畫”引發(fā)了強(qiáng)烈反響，其創(chuàng)作者被MJ官方封號(hào)。但在國內(nèi)，“霍金來了都得給領(lǐng)導(dǎo)敬酒”等變種則依然不受限制地繼續(xù)流傳。

以文字為主的社交平臺(tái)，受到AIGC內(nèi)容的沖擊明顯大于以圖片、視頻為主的平臺(tái)。

在知乎，雖然“百變?nèi)松币驯环饨?，但同類情況還很常見，有些回答不標(biāo)注“包含AI創(chuàng)作”，但一看就有GPT的味道。

這些內(nèi)容最大的問題并不是枯燥乏味，而是缺乏事實(shí)核查，特別是在醫(yī)學(xué)、金融等專業(yè)領(lǐng)域，無資質(zhì)人員的回答很容易形成誤導(dǎo)。

此外，“GPT體”的顯著特征——按條列出要點(diǎn)，最后來一段總結(jié)——實(shí)際上會(huì)在生成過程中，不斷強(qiáng)化對(duì)前面寫過的答案的“自信”。一旦AI生成內(nèi)容有遺漏或編造成分，它會(huì)在剩下的回答中，致力于讓前面的內(nèi)容變得看起來很可信。

文生圖類AI工具受到生成內(nèi)容的“反向污染”可能性目前還比較小。而對(duì)于大語言模型而言，“垃圾進(jìn)、垃圾出”是一個(gè)迫在眉睫的現(xiàn)實(shí)威脅。

類似“百變?nèi)松钡倪@種情況，可以在一個(gè)非?？斓闹芷趦?nèi)被反饋進(jìn)去。他關(guān)于“象鼻山有纜車”的錯(cuò)誤回答，僅用不到一個(gè)月的工夫，就被抓取和錯(cuò)誤地呈現(xiàn)出來了。

如果不能盡快想出對(duì)策，類ChatGPT的文本大模型工具，將很快成為一種無用的玩具和擺設(shè)，它訓(xùn)練得越努力，生成的東西反而越不可用。

二、AI內(nèi)容不是新鮮事，但短期只能“一刀切”

ChatGPT火爆已有半年。這段時(shí)間里，知乎、抖音、小紅書等社交平臺(tái)都已經(jīng)發(fā)布了限制AI生成內(nèi)容的規(guī)定?？傮w上它們都是需要發(fā)布者對(duì)AI生成部分明確標(biāo)記，以及對(duì)缺乏人類介入的純AI內(nèi)容嚴(yán)肅查處。例如，抖音禁止沒有“中之人”，完全由AI生成問答的直播。

對(duì)此，娛樂資本論的觀點(diǎn)始終如一：AIGC就像其他任何工具一樣。當(dāng)AI生成內(nèi)容“污染互聯(lián)網(wǎng)”的時(shí)候，錯(cuò)的不是工具，而是使用工具的人。

自動(dòng)化生成垃圾內(nèi)容，并填充到網(wǎng)上的生意古已有之。

針對(duì)搜索引擎的優(yōu)化結(jié)果，大多數(shù)真人都是看不見的，只對(duì)機(jī)器規(guī)則有意義。

10多年前就有打散文章順序，同義詞替換等“偽原創(chuàng)”技術(shù)。

稍微動(dòng)點(diǎn)心思的人工“洗稿”在公眾號(hào)時(shí)代屢禁不止，微信不得不組織一些德高望重的“陪審團(tuán)”來處理洗稿爭議。

ChatGPT等AIGC工具做的事情本質(zhì)上是一樣的。當(dāng)然這個(gè)新“工具”也確實(shí)有特別之處，它生成垃圾內(nèi)容的效率，相比過去可能是10-100倍的提升。ChatGPT對(duì)任何使用者一視同仁地“降本增效”，對(duì)營銷號(hào)也不例外。平臺(tái)反低質(zhì)內(nèi)容的斗爭變得更艱難了。

其實(shí)，ChatGPT生成的內(nèi)容，如果讓人類來評(píng)價(jià)，還好于傳統(tǒng)方法做出的“偽原創(chuàng)”“營銷號(hào)體”等內(nèi)容。但是，AIGC卻不太可能替代掉以前的垃圾內(nèi)容，而是兩種很差的內(nèi)容共存，讓網(wǎng)絡(luò)環(huán)境更糟糕。

因?yàn)锳IGC做營銷號(hào)的爆發(fā)比較突然，來勢洶洶，短時(shí)間內(nèi)，平臺(tái)不可避免需要對(duì)AI生成的內(nèi)容“一刀切”。如果找不到根治方法，這些臨時(shí)措施也很可能會(huì)常態(tài)化。

但長遠(yuǎn)來看，平臺(tái)沒有必要對(duì)所有AIGC內(nèi)容始終保持特殊化對(duì)待。善用AI的人，是用它來更好發(fā)揮自己已有的專業(yè)能力。

在“首屆上海文娛科創(chuàng)沙龍”上，娛樂資本論創(chuàng)始人吳立湘在《文娛行業(yè)的多模態(tài)戰(zhàn)爭》主題演講中明確提出：

① “由AI生成”并不意味著人類可以“偷工減料” ，從最終結(jié)果上看，我們報(bào)道的質(zhì)量和標(biāo)準(zhǔn)和以前沒有區(qū)別。

② AI不是取代人類，而是解放人類。我們的記者和編輯對(duì)AI生成的結(jié)果負(fù)最終責(zé)任，而他們也擁有這些作品的原有權(quán)益。

有的人在知乎回答時(shí)，先用AI生成基底，但在發(fā)布前手動(dòng)核查事實(shí)，對(duì)內(nèi)容負(fù)責(zé)。這樣的回答可能在當(dāng)前的“一刀切”管理中被誤傷。

一旦平臺(tái)擁有了比較快速、準(zhǔn)確的機(jī)審方法，可以將一些比較基礎(chǔ)的AI生成內(nèi)容識(shí)別出來，并自動(dòng)處理，那么用AIGC制作的垃圾內(nèi)容，和用偽原創(chuàng)等工具做的內(nèi)容，應(yīng)該平等地被處罰。還是那句話，錯(cuò)的不是工具，而是使用工具的人。

三、識(shí)別AIGC內(nèi)容的技術(shù)困難

問題在于，目前的技術(shù)手段很難有效判斷一段內(nèi)容是否由AI生成。我們之前對(duì)秘塔科技的采訪中也提到了這一點(diǎn)。

在計(jì)算機(jī)領(lǐng)域，有一個(gè)常識(shí)性的道理——首次生成內(nèi)容，永遠(yuǎn)是比二次處理同一條內(nèi)容更簡單的。舉例說，將一段話以“中翻英，英翻中，再翻回去”的方法過很多遍機(jī)器翻譯，它就會(huì)變得難以辨認(rèn)。

即使ChatGPT生成的“GPT體”有人類讀者肉眼可見的特征，比如上面提到的“按條列出要點(diǎn)，最后來一段總結(jié)”，這種特征也是由人類特有的抽象能力得出的。

對(duì)人類來說接近本能的、非常簡單的工作，可能對(duì)機(jī)器來說極其困難。GPT們僅僅是從語料中，統(tǒng)計(jì)最有可能接在一個(gè)字后面的下一個(gè)字，它們不是真的“懂了”某個(gè)道理，而是某次生成的內(nèi)容恰好“瞎貓碰死耗子”地符合了人類的需要而已。

我們可以假設(shè)自己是平臺(tái)的風(fēng)控人員，想想該怎么抓取和判斷AI生成內(nèi)容：

對(duì)于AI生圖，可以考慮讓國內(nèi)外的作圖工具出圖時(shí)加水印之類。但Stable Diffusion完全開源，不能號(hào)召所有人都這樣。

即使如此，AI生成的文字內(nèi)容也是不可能“加水印”的，而且大模型本身就是一種很好的文本潤色工具，將生成內(nèi)容再過一遍AI，即可大大降低“GPT體”被看出來的概率。

因此，我們只能說現(xiàn)在的平臺(tái)“有心無力”，因?yàn)榧夹g(shù)上查處和整治的速度趕不上問題產(chǎn)生的速度。其實(shí)如果知乎真的能用機(jī)器+人工實(shí)現(xiàn)有效的事前監(jiān)管，就不需要等到這事鬧大了。

技術(shù)不夠，“小管家”們只能事后監(jiān)管，手動(dòng)定位被網(wǎng)民舉報(bào)的用戶；而監(jiān)管也得按照“基本法”，即使“百變?nèi)松北唤?，他的答案還保留著。

在必應(yīng)AI的回答里，象鼻山現(xiàn)在還是有纜車。

四、大模型開發(fā)者應(yīng)為反“垃圾”負(fù)更多責(zé)任

如果不解決這個(gè)問題，放任AI生成內(nèi)容被重新投喂到大模型中反芻，結(jié)果將引來模型的“崩潰”。意思是，用片面的信息不斷自我強(qiáng)化，最終只能生成對(duì)人毫無意義的內(nèi)容。

在牛津大學(xué)、劍橋大學(xué)的研究人員發(fā)布的一篇預(yù)印本論文上，講述了得出這個(gè)結(jié)論的過程。研究人員的解決方法是，模型開發(fā)者應(yīng)繼續(xù)保留一部分人工制作的語料，和真人打標(biāo)簽的過程。

但這似乎越來越不容易。在英語世界中，亞馬遜的外包服務(wù)網(wǎng)站MTurk經(jīng)常被AI開發(fā)者用作標(biāo)注任務(wù)。然而MTurk上的勞動(dòng)者，現(xiàn)在在做任務(wù)的時(shí)候也廣泛采用AI輔助。

如果外包人員不加說明，人們會(huì)誤以為這些機(jī)器做的標(biāo)注是“純天然無污染”的?？墒牵恍┤祟惪戳擞X得沒什么的“抖動(dòng)”，會(huì)在缺乏人類監(jiān)督的情況下，迅速自我強(qiáng)化，最終讓算法得出錯(cuò)誤的結(jié)果。

如果語料和訓(xùn)練的自動(dòng)化不可避免，該怎么辦？

有人提出，上述研究的盲點(diǎn)是只會(huì)用最簡單的方法來提問。因此，可以從訓(xùn)練方法，甚至是prompt的多樣性上做文章。適當(dāng)?shù)膒rompt才會(huì)激發(fā)AI扮演不同人格，調(diào)用不同領(lǐng)域?qū)W來的知識(shí)。

另一種思路，是使用人類有償或義務(wù)勞動(dòng)的辦法來打標(biāo)簽。驗(yàn)證碼服務(wù)Recaptcha曾經(jīng)幫助識(shí)別了很多印刷書籍，現(xiàn)在它讓輸入驗(yàn)證碼的人類幫AI生成的圖像打標(biāo)簽。

知乎目前擁有一個(gè)很好的評(píng)價(jià)機(jī)制，人們用“贊同”“反對(duì)”為答案投票。盡管不都是反映答案品質(zhì)，也可能是表達(dá)一種情緒，但這個(gè)投票機(jī)制很難把高票投給“GPT體”的回答。被封禁的“百變?nèi)松币卜献鎏?hào)的“三無小號(hào)”特征，容易被識(shí)別。所以，知乎可以利用好這種排名機(jī)制中的人類勞動(dòng)，并讓必應(yīng)等搜索引擎在抓取時(shí)，注意到答案權(quán)重的區(qū)別。

如果繼續(xù)想下去，那么普通用戶的真人操作，還將以各種方式被更好地利用，甚至不排除給錢——一個(gè)可能無關(guān)的例子是，大眾點(diǎn)評(píng)上的很多商家會(huì)對(duì)真人打卡行為給予獎(jiǎng)勵(lì)。

無論如何，模型開發(fā)商無法“號(hào)令”為其提供語料的平臺(tái)，幫自己預(yù)先篩選掉AIGC內(nèi)容。隨便一想就知道這太過分了：它們甚至本來應(yīng)該給平臺(tái)和用戶們錢，才能使用這些語料數(shù)據(jù)的。

當(dāng)StackOverflow以及Reddit宣布限制AI生成內(nèi)容，以及限制抓取站內(nèi)信息的時(shí)候，不論是模型還是社區(qū)用戶都對(duì)此無能為力，只能是那些先下手抓完的平臺(tái)搶占先機(jī)。

大模型制造者為了采購好數(shù)據(jù)，將付出比現(xiàn)在更多的代價(jià)。能確保有優(yōu)質(zhì)人類內(nèi)容的社區(qū)，將來可以有很好的商業(yè)價(jià)值。

社交平臺(tái)們也可以考慮提升創(chuàng)作門檻，保留人類親手寫內(nèi)容的“火種”。例如小紅書和即刻那樣，隱蔽或取消桌面寫作入口，將社區(qū)變成“移動(dòng)優(yōu)先”。

總而言之，這次大模型們這次必須自己解決“污染”問題，而無法尋求其一直利用的社交平臺(tái)的幫助。

關(guān)鍵詞：

AI“瘋狂污染中文互聯(lián)網(wǎng)”，社交平臺(tái)管不了還是不想管？|世界新資訊

您可能也感興趣:

今日熱點(diǎn)

每日看點(diǎn)!威振股份聘任陳崗為公司總經(jīng)理聘任譚榮芳為公司財(cái)務(wù)負(fù)責(zé)人

世界快報(bào):移民最好的國家排行榜移民條件

環(huán)球消息！餐飲下半年工作計(jì)劃范文【優(yōu)秀10篇】

更多

更多

排行

最近更新

今日要聞

AI“瘋狂污染中文互聯(lián)網(wǎng)”，社交平臺(tái)管不了還是不想管？|世界新資訊

您可能也感興趣:

今日熱點(diǎn)

每日看點(diǎn)!威振股份聘任陳崗為公司總經(jīng)理 聘任譚榮芳為公司財(cái)務(wù)負(fù)責(zé)人

世界快報(bào):移民最好的國家排行榜 移民條件

環(huán)球消息！餐飲下半年工作計(jì)劃范文【優(yōu)秀10篇】

為您推薦

巴州區(qū)花溪小學(xué)：濃情端午 粽米飄香_焦點(diǎn)快看

哪些花草不適合在封閉陽臺(tái)上栽種（都有哪些花不適合在陽臺(tái)上養(yǎng)）

還剩不到40小時(shí)！5人命懸一線！ 短訊

2023中國鐵路廣州局集團(tuán)有限公司招聘畢業(yè)生崗位一覽 每日關(guān)注

更多

更多

排行

最近更新

今日要聞

AI“瘋狂污染中文互聯(lián)網(wǎng)”，社交平臺(tái)管不了還是不想管？|世界新資訊

每日看點(diǎn)!威振股份聘任陳崗為公司總經(jīng)理聘任譚榮芳為公司財(cái)務(wù)負(fù)責(zé)人

世界快報(bào):移民最好的國家排行榜移民條件

巴州區(qū)花溪小學(xué)：濃情端午粽米飄香_焦點(diǎn)快看

還剩不到40小時(shí)！5人命懸一線！短訊

2023中國鐵路廣州局集團(tuán)有限公司招聘畢業(yè)生崗位一覽每日關(guān)注