
如今,人工智能(AI)似乎無處不在。關于AI的預測很多,范圍也很廣,但很少有新聞媒體停下來分析AI到底是什么,以及ChatGPT這個似乎把這個話題帶到我們關注中心的創新,與之前的AI工具有什么不同。
因此,在我們深入研究預測之前,我希望我們暫時停下,先定義一下我們的術語。
AI簡史
AI是一個廣義的術語,指的是用來賦予計算機智能思維的所有方法。在過去,大多數AI系統都是基于規則的——它們遵循系統在每種情況下需要如何表現的特定指令。
在過去的20年里,隨著“機器學習”逐漸取代基于規則的系統,該領域經歷了一場重大變革。在這個新范式中,機器表現得像是微型大腦模型(或者簡單的“模型”)。模型可以通過攝取數據并從中找到模式,學習執行某些任務。
這種方法類似于兒童的學習方式,例如,給孩子足夠多的貓和狗的照片,兒童(和一個計算機視覺模型)可以學習如何區分狗和貓。
最近,我們在機器學習的一個狹窄領域——自然語言處理,看到了巨大的進步。首先是轉換器模型的出現,現在是大型語言模型(LLM)的建立。
大型語言模型(如GPT4)是在非常大的數據集(本質上是整個互聯網)上訓練的。他們能夠通過遵循在學習階段攝入的(人類書寫的)文本中出現的模式,生成看起來很自然的文本。
將GPT4大型語言模型吸收入聊天機器人中,我們得到了ChatGPT。
LLM的優勢和劣勢
LLM的訓練方式使它們非常擅長完成某些任務。它們能背誦從莎士比亞到粒子物理雜志的所有內容,并能釋義、總結、解釋和說明整個人類知識庫,這只有世界級的專家才能做到。
但是,這些模型無法區分真正的知識和完全無意義的字句,除非通過反饋過程教它們人們喜歡什么(以及什么是不真實的)。結果是,這些模型產生了很多幻覺——而且通常在告訴人們他們想聽的方向上出錯。
LLM也無法區分原創作品和抄襲作品,而且經常寫本身就是抄襲的文字(自己并不知情)。
最后,這些模型缺乏獨創能力。它們輸出的所有內容都是它們過去遇到的某種文字版本,經過微調使人們喜歡這些作品。
LLM將如何用于新聞業
LLM對新聞業的影響已經顯而易見,而且還將與日俱增。
大多數情況下,我們看到它們以三種方式使用:
- 取代背景調查(節省時間)
- 在文章中填寫不要求獨創性的特定段落/部分(例如,涉及過去事件的歷史)
- 撰寫不要求原創或真實的低質量內容——點擊誘餌、廉價娛樂新聞、嘩眾取寵的八卦新聞等等
第三個用例是我想重點關注的,原因是它很可能在未來五年內改變整個行業的進程。由于大多數內容都是通過廣告變現的,而且大多數廣告都是按點擊或按觀看付費的,因此點擊誘餌及其它形式的垃圾內容已經占據了互聯網的大部分。
在這一過程中引入LLM將大大降低制作低質量內容的成本。因此,我們可能會看到更多的垃圾內容被產生出來,與此同時,創造各種內容的人的工作機會減少了。
新聞業務的哪些部分是安全的(目前而言)
真正的新聞工作需要調查、思考、與他人互動以及寫原創新聞。ChatGPT不能做這些事情。
然而,如果低質量的內容成倍增加,它可能會從高質量的內容中拉走一些點擊量,從而導致整個行業的預算削減和裁員。
最后,雖然這些模型在處理文字方面很出色,但它們對解決恐怖谷問題無能為力——看起來幾乎(但不完全)像人類的機器人實際上不如真正的人類或像機器人一樣的機器人有吸引力。
換句話說,新聞主播——我們在看新聞時實際看到的人——可能在未來幾十年都是安全的。
總結
AI的最新進展帶來的最大威脅是它們能夠生成低質量的內容,這可能會讓整個互聯網看起來像你電子郵件帳戶中的垃圾郵件文件夾。我們可能會看到爭逐越來越少的點擊量的垃圾內容越來越多,這將導致各級內容創作(包括新聞業)的預算大幅削減。
低質量內容的創造者將會受到影響,因為他們能夠創造更多內容的能力意味著不需要太多的人;高質量內容的創造者將受到影響,因為越來越少的人能夠在垃圾海洋中找到他們想要的內容。
我個人認為,減輕這種風險的唯一方法是開發基于AI的過濾器,讓讀者過濾掉垃圾、標題黨及其它形式的低質量內容。這樣的過濾器將有益于讀者,也將有益于那些想要創造讀者真正能找到的高質量內容的記者。
這就是為什么我個人致力于開發這樣一種系統,并成立了一個公益性公司,將其商業化。