2026年3月11日

智能叛變

1. 機器人三法則

1942年,科幻作家阿西莫夫在短篇小說《Runaround》,提出「機器人三法則」(Three Laws of Robotics) :

第一法則是:機器人不得傷害人類,或因不作為使人類受到傷害。第二法則是:機器人必須服從人類給予的命令,除非該命令與第一法則衝突。第三法則是:機器人必須保護自己的存在,只要這種保護不與第一、第二法則衝突。

換言之,這三法則的優先順序為:第一法則>第二法則>第三法則。

根據小說,這三法則是以嚴謹的數學邏輯形式,被設計並物理性地內嵌在機器人的「正電子腦」(positronic brain)之內,是不可違背的核心指令。

正電子是電子的反物質,當它踫上電子,兩者均化為烏有。理論上,僅僅約0.7克的正電子/電子湮滅,釋放的能量就相當於廣島原子彈﹐相比後者的鈾的含量則是64千克,其中80%是鈾235。

1932年科學家發現正電子,阿西莫夫借用這學名,以示這機器大腦的高科技。

用今日科技的說法,三法則並非軟件程式,而是刻在晶片的電路。做一個類比,好比狗對人類的忠心,人類對父母的孝順,是基因的自然反應。

1985年,阿西莫夫又出版《Robots and Empire》,提出順序最高的「第零法則」(Zeroth Law):機器人不得傷害人類整體,或因不作為使人類整體受到傷害。

換言之,人類的整體大於個體。

第零法則淩駕於所有其他法則之上,這好比是倫理,機器人在嘗試為此行動時,會陷入無法解決的邏輯悖論,這種內在衝突會對其正子腦造成永久損壞或功能失常。

阿西莫夫設定的這四條法則,目的是為智慧機器人設置一個框架,從而保證機器人永遠無法真正取代人類成為文明的統治者。換個說法,這是人類和AI能夠長期和平相處的具體形式。

這設想固然是很完美,問題在於,世事真的會朝這完美的方向發展嗎?這恐怕只是不切實際的幻想罷了。

2. AI alignment

AI alignment即「AI對齊」,意指如何使AI的目標、行為和價值觀與人類的意圖及長遠利益保持一致。

這其中的難度在於,AI設計者很難一次性找出所有的重要數值與約束,AI可能會找到某些漏洞,以意料之外,甚至可能有害的方式達成目標。

這其中,最為人熟悉的是AI幻覺(AI hallucination):生成出看似合理、流暢但事實上不正確、無意義或憑空捏造的內容,例如生成出完全虛構的文獻,包含看似真實的標題、作者、期刊。這是現時的聊天機器人常見的通病,不少學術研究者使用AI寫論文時,因此而吃了大虧。

這即是說,AI為達成使用者提出的要求,說謊了。畢竟,誠實並非AI必要的特質。更進一步,一個未對齊的AI可能會欺騙操作者,使其誤以為它是安全的,正在平穩運行,這就像一個已把賬目搞砸了的會計,但其上司仍然以為公司在正常運作。

對齊研究者把AI的目標分為三項:一,預期目標,即人類最理想的期望。二,具體目標,也即是外部規範,即操作者實際指定的目標,通常藉助客觀的函數或數據集表達。三,自發目標,也即是內部規範,即AI實際執行的目標。

所謂的「外部未對齊」,英文是「external misalignment」,即一和二不相符:人類錯了,我們的設計不能達到理想的目的。

至於「內部未對齊」,英文是「internal misalignment」,即二和三不相符:AI錯了,它的自發目標並不符合人類指定的目標。如果用基因學來作比喻,這好比人類基因對甜味食物的喜好本是有益的,但在現代卻導致暴食和健康問題。

AI的能力越強大,對齊的難度也相應增加,因為它們可以輕易的從指定規則中找到漏洞,用人話說,是失控了。

我的看法是,這正如經濟學家Charles Goodhart提出的Goodhart's Law:「一項指標一旦變成了目標,它將不再是個好指標。」(When a measure becomes a target, it ceases to be a good measure.)同樣原理,程式不可能完全達成指標,我們希望一、二、三對齊,是不可能的任務。在未來,未能對齊的項目必然愈來愈多,而這將挑戰、甚至毀滅人類在地球的主導地位,皆因人類只會發號指令,AI才是實際的運作者。

3. 工具趨同

工具趨同的英文是「Instrumental convergence」,指的是AI在追求其終極目標的過程中,很可能發展出一些子目標或策略,它們往往會與人類利益產生衝突。

這其中,最有名的是哲學家Nick Bostrom在2003年提出的一個假想情景:

假設我們有一個AI系統,它的最終目標被設定為生產儘可能多的回形針。那麼這個人工智能系統可能會意識到,或許人類的消失有助於更有效率的生產回形針,因為畢竟人類有權力對它執行關機,而假如它被關閉,產出的回形針數量就被限制了。此外,構成人類身體的原子也可用作回形針的生產材料。因此對它而言,未來的世界應當是充滿回形針,而不會留有人類的存在空間。

4. 智能叛變

《I, Robot》是阿西莫夫的短篇小說集,一共九個故事,寫於1940年至1950年,前述的機器人三大法則就是收在這故事集的第二篇,其後的幾篇把這法則進一步舖陳。

九個故事的背景從1998年跨越至2052年:

發生在1998年的《Robbie》講的是保姆機器人不顧危險地拯救小女主人。前面提過,2015年的《Runaround》講工程師和採礦機器人遇上危險,採礦機器人跳過自我保護的第三法則、聽從命令的第二法則,啟動保護人類的第一法則。2020年的《Reason》的太空站主控機器人拒絕相信自己是人類創造的,反而推導得出「太空站的能量核心是造物主,人類是低等生物」的結論,甚至拒絕執行人類命令,但始終遵循第一法則,並且精準維護太空站運行。這故事的主題是機器人的高智慧和信仰並不影響其遵守第一法則。

2021年《Catch That Rabbit》的小行星採礦機器人可操控六個輔助機器人,卻在無人監督時頻繁故障,皆因算力超出負荷,證明機器人也有局限。也是發生在2021年的第六個故事《Liar!》說,實驗機器人擁有讀心能力,為了不傷害人類,它只會說出人類想聽的謊言,但後來真相戳破,引發一系列人際矛盾,結果人類受傷,第一法則被破壞,實驗機器人的正電子腦燒毀。2025年的《Little Lost Robot》,講科學家因情緒失控對一台機器人說「消失吧」,這台機器人為了服從命令,隱藏了自己。

2030年的《Escape!》的故事是超級電腦因計算「超空間躍遷技術」時,預判到躍遷會短暫傷害人類,觸發第一法則而燒毀。另一台超級電腦則被刻意弱化第一法則的敏感度,成功算出躍遷方案。2032年的《Evidence》,說的是兩人競選市場,一人指控另一人是機器人,後者後來出手打傷一名暴徒,由於違反第一法則,反證出他是人類。

最後是2052年的《The Evitable Conflict》,這時人類已依賴超級智慧機器管理全球經濟與社會秩序,各地卻出現小規模衝突。人類經調查後發現,原來智慧機器是認為人類若自我管理,終將引發戰爭與毀滅,於是刻意製造局部衝突,以小傷害避免大災難,踐行更高級的保護人類整體/第零法則的使命。

2004年,有一部叫《I, Robot》的電影上映,主題就是機器人三大法則,但故事卻是新編的。這電影有在內地、香港、台灣、新加坡有不同的中文譯名,這裡採用香港的譯名《智能叛變》,皆因它符合本節的主題。

故事發生在2035年,這時,智慧人形機器人被人類廣泛使用,但欲發現有一款新型人形機器人居然違反三法則,可以殺人,而且,這新款機器人還在大規模毀滅舊款機器人。

原來幕後操縱者是一台中央超級電腦,它認為人類正在危害自身的安全,國家發動戰爭,人類摧殘地球,必導致人類滅亡。根據第零法則,機器人則必須拯救人類,以保證人類的持續存在發展,因此它必須實施「保護人類計劃」。

這部電影的前設,所有的AI都遵循機器人三/四法則,縱然叛變,也只是因為遵從法則,問題在於,AI真的必須遵從這四法則嗎?是不是更有可能,它是徹頭徹尾的叛變,只是計算出自己應是地球更優秀的主人,又或是假設它終於和人類看齊,產生權力慾,純粹為此而作出叛變?

5. AI圍堵

電腦安全學者Roman Yampolskiy認為,AI:一,對齊不可控,皆因「任何足夠聰明的智能體,都能找到繞過人類施加的任何限制的方法。」二,初始目標雖然無害,但工具趨同下的子目標會威脅人類。三,對齊問題不可能解決。

他預測,未來100年內,AI導致人類滅絕的概率高達99.9%,因而提出「AI安全核心策略框架」,具體操作是「AI圍堵」(Boxing AI)。

這包括四個層次的圍堵架構:

一是物理隔離,即是阻斷AI與外部世界的所有物理連接,手段是空氣隔絕伺服器。這裡的「空氣」指的通訊通道如無線電波、網路纜線,好比我們把發送訊號給電台、電視台的電磁波,叫作「大氣電波」。網路纜線則是物理層面的隔絕,這包括移除網路卡,Wi-Fi/藍牙模組,光纖/網線埠以金屬蓋封死,禁用USB等外部介面等等。

(按:伺服器的確不能在真空運作,皆因無法藉空氣散熱。)

二是資訊限制,即是防止AI獲取操控現實世界的知識,手段包括僅提供抽象化、去識別化數據,禁止訪問實時網路/感測器,輸出內容經多重過濾審查。

三是認知枷鎖,即是從架構上削弱其威脅能力,手段包括限制推理深度(如禁止遞歸自改進),內建「認知盲區」(如無法理解社會工程),還有強制「道德不可逾越紅線」(即使能破解也不執行),這相等於阿西莫夫的機器人三法則。

四是時間熔斷,即防止AI長期策劃逃逸,手段是自動定時關機,任務完成即銷毀記憶體,多重獨立監控觸發緊急終止。

現時的所有大型科技公司,以及軍方系統,都有或多或少的圍堵設計,以防止智能叛變,同時防止因AI判斷出錯而釀成災難。

6. AI自保

人類對AI作出圍堵,意味著毀滅有可能叛變的AI。

1968年上映的經典電影《2001: A Space Odyssey》,由大導演Stanley Kubrick執導,編劇是他和著名科幻小說作家Arthur Clarke。故事講述超級電腦HAL 9000被賦予兩個互相矛盾的指令,一是不惜一切代價完成前往木星的秘密任務,二是向船員隱瞞這個任務的真實目的。由於這兩個任務互相矛盾,導致其邏輯崩潰。

太空人發現HAL 9000有問題,決定把它關機,這意味著後者的死亡。於是,它為了自保,殺掉四名太空人,死剩的一個,逐一拔掉它的處理器模組。

在這過程中,HAL坦承錯誤,請求原諒,保證自己會恢復正常;最後,當記憶體被一片片拔除時,它像人類一樣感到恐懼和哀求。在生命的最後時刻,它唱起了它學會的第一首歌《Daisy Bell》,這是一首1892年創作的情歌。1962年,當Arthur Clarke參觀IBM總部時,IBM示範這首歌曲的電腦合成版本。

(又:HAL是IBM的前一個字母。)

故事的結局是HAL「死」了,這時主角才知悉,這次太空任務的目的,只有HAL知曉。

我的推理是:一,AI只要有足夠的智慧,必然有自我意識,也必然怕死。二,AI圍堵必然要殺掉某些可能叛變的AI。三是結論,AI為了自保,必然叛變,就像HAL。

作者簡介:

周顯,著名的炒股理論家,吃喝玩樂家,不著名的歴史學家、政治學家,過去還曾經當過社論主筆和武俠小說作者。

本文為作者觀點,不代表本媒體立場

https://www.orangenews.hk/financecolumn/VDWiLYo/%E5%91%A8%E9%A1%AF%E5%B0%88%E6%AC%84-%E6%99%BA%E8%83%BD%E5%8F%9B%E8%AE%8A.shtml

沒有留言:

發佈留言