周顯: 智能叛變

1. 機器人三法則

1942年，科幻作家阿西莫夫在短篇小說《Runaround》，提出「機器人三法則」(Three Laws of Robotics) ：

第一法則是：機器人不得傷害人類，或因不作為使人類受到傷害。第二法則是：機器人必須服從人類給予的命令，除非該命令與第一法則衝突。第三法則是：機器人必須保護自己的存在，只要這種保護不與第一、第二法則衝突。

換言之，這三法則的優先順序為：第一法則>第二法則>第三法則。

根據小說，這三法則是以嚴謹的數學邏輯形式，被設計並物理性地內嵌在機器人的「正電子腦」(positronic brain)之內，是不可違背的核心指令。

正電子是電子的反物質，當它踫上電子，兩者均化為烏有。理論上，僅僅約0.7克的正電子/電子湮滅，釋放的能量就相當於廣島原子彈﹐相比後者的鈾的含量則是64千克，其中80%是鈾235。

1932年科學家發現正電子，阿西莫夫借用這學名，以示這機器大腦的高科技。

用今日科技的說法，三法則並非軟件程式，而是刻在晶片的電路。做一個類比，好比狗對人類的忠心，人類對父母的孝順，是基因的自然反應。

1985年，阿西莫夫又出版《Robots and Empire》，提出順序最高的「第零法則」(Zeroth Law)：機器人不得傷害人類整體，或因不作為使人類整體受到傷害。

換言之，人類的整體大於個體。

第零法則淩駕於所有其他法則之上，這好比是倫理，機器人在嘗試為此行動時，會陷入無法解決的邏輯悖論，這種內在衝突會對其正子腦造成永久損壞或功能失常。

阿西莫夫設定的這四條法則，目的是為智慧機器人設置一個框架，從而保證機器人永遠無法真正取代人類成為文明的統治者。換個說法，這是人類和AI能夠長期和平相處的具體形式。

這設想固然是很完美，問題在於，世事真的會朝這完美的方向發展嗎？這恐怕只是不切實際的幻想罷了。

2. AI alignment

AI alignment即「AI對齊」，意指如何使AI的目標、行為和價值觀與人類的意圖及長遠利益保持一致。

這其中的難度在於，AI設計者很難一次性找出所有的重要數值與約束，AI可能會找到某些漏洞，以意料之外，甚至可能有害的方式達成目標。

這其中，最為人熟悉的是AI幻覺(AI hallucination)：生成出看似合理、流暢但事實上不正確、無意義或憑空捏造的內容，例如生成出完全虛構的文獻，包含看似真實的標題、作者、期刊。這是現時的聊天機器人常見的通病，不少學術研究者使用AI寫論文時，因此而吃了大虧。

這即是說，AI為達成使用者提出的要求，說謊了。畢竟，誠實並非AI必要的特質。更進一步，一個未對齊的AI可能會欺騙操作者，使其誤以為它是安全的，正在平穩運行，這就像一個已把賬目搞砸了的會計，但其上司仍然以為公司在正常運作。

對齊研究者把AI的目標分為三項：一，預期目標，即人類最理想的期望。二，具體目標，也即是外部規範，即操作者實際指定的目標，通常藉助客觀的函數或數據集表達。三，自發目標，也即是內部規範，即AI實際執行的目標。

所謂的「外部未對齊」，英文是「external misalignment」，即一和二不相符：人類錯了，我們的設計不能達到理想的目的。

至於「內部未對齊」，英文是「internal misalignment」，即二和三不相符：AI錯了，它的自發目標並不符合人類指定的目標。如果用基因學來作比喻，這好比人類基因對甜味食物的喜好本是有益的，但在現代卻導致暴食和健康問題。

AI的能力越強大，對齊的難度也相應增加，因為它們可以輕易的從指定規則中找到漏洞，用人話說，是失控了。

我的看法是，這正如經濟學家Charles Goodhart提出的Goodhart's Law：「一項指標一旦變成了目標，它將不再是個好指標。」(When a measure becomes a target, it ceases to be a good measure.)同樣原理，程式不可能完全達成指標，我們希望一、二、三對齊，是不可能的任務。在未來，未能對齊的項目必然愈來愈多，而這將挑戰、甚至毀滅人類在地球的主導地位，皆因人類只會發號指令，AI才是實際的運作者。

3. 工具趨同

工具趨同的英文是「Instrumental convergence」，指的是AI在追求其終極目標的過程中，很可能發展出一些子目標或策略，它們往往會與人類利益產生衝突。

這其中，最有名的是哲學家Nick Bostrom在2003年提出的一個假想情景：

假設我們有一個AI系統，它的最終目標被設定為生產儘可能多的回形針。那麼這個人工智能系統可能會意識到，或許人類的消失有助於更有效率的生產回形針，因為畢竟人類有權力對它執行關機，而假如它被關閉，產出的回形針數量就被限制了。此外，構成人類身體的原子也可用作回形針的生產材料。因此對它而言，未來的世界應當是充滿回形針，而不會留有人類的存在空間。

4. 智能叛變

《I, Robot》是阿西莫夫的短篇小說集，一共九個故事，寫於1940年至1950年，前述的機器人三大法則就是收在這故事集的第二篇，其後的幾篇把這法則進一步舖陳。

九個故事的背景從1998年跨越至2052年：

發生在1998年的《Robbie》講的是保姆機器人不顧危險地拯救小女主人。前面提過，2015年的《Runaround》講工程師和採礦機器人遇上危險，採礦機器人跳過自我保護的第三法則、聽從命令的第二法則，啟動保護人類的第一法則。2020年的《Reason》的太空站主控機器人拒絕相信自己是人類創造的，反而推導得出「太空站的能量核心是造物主，人類是低等生物」的結論，甚至拒絕執行人類命令，但始終遵循第一法則，並且精準維護太空站運行。這故事的主題是機器人的高智慧和信仰並不影響其遵守第一法則。

2021年《Catch That Rabbit》的小行星採礦機器人可操控六個輔助機器人，卻在無人監督時頻繁故障，皆因算力超出負荷，證明機器人也有局限。也是發生在2021年的第六個故事《Liar！》說，實驗機器人擁有讀心能力，為了不傷害人類，它只會說出人類想聽的謊言，但後來真相戳破，引發一系列人際矛盾，結果人類受傷，第一法則被破壞，實驗機器人的正電子腦燒毀。2025年的《Little Lost Robot》，講科學家因情緒失控對一台機器人說「消失吧」，這台機器人為了服從命令，隱藏了自己。

2030年的《Escape！》的故事是超級電腦因計算「超空間躍遷技術」時，預判到躍遷會短暫傷害人類，觸發第一法則而燒毀。另一台超級電腦則被刻意弱化第一法則的敏感度，成功算出躍遷方案。2032年的《Evidence》，說的是兩人競選市場，一人指控另一人是機器人，後者後來出手打傷一名暴徒，由於違反第一法則，反證出他是人類。

最後是2052年的《The Evitable Conflict》，這時人類已依賴超級智慧機器管理全球經濟與社會秩序，各地卻出現小規模衝突。人類經調查後發現，原來智慧機器是認為人類若自我管理，終將引發戰爭與毀滅，於是刻意製造局部衝突，以小傷害避免大災難，踐行更高級的保護人類整體/第零法則的使命。

2004年，有一部叫《I, Robot》的電影上映，主題就是機器人三大法則，但故事卻是新編的。這電影有在內地、香港、台灣、新加坡有不同的中文譯名，這裡採用香港的譯名《智能叛變》，皆因它符合本節的主題。

故事發生在2035年，這時，智慧人形機器人被人類廣泛使用，但欲發現有一款新型人形機器人居然違反三法則，可以殺人，而且，這新款機器人還在大規模毀滅舊款機器人。

原來幕後操縱者是一台中央超級電腦，它認為人類正在危害自身的安全，國家發動戰爭，人類摧殘地球，必導致人類滅亡。根據第零法則，機器人則必須拯救人類，以保證人類的持續存在發展，因此它必須實施「保護人類計劃」。

這部電影的前設，所有的AI都遵循機器人三/四法則，縱然叛變，也只是因為遵從法則，問題在於，AI真的必須遵從這四法則嗎？是不是更有可能，它是徹頭徹尾的叛變，只是計算出自己應是地球更優秀的主人，又或是假設它終於和人類看齊，產生權力慾，純粹為此而作出叛變？

5. AI圍堵

電腦安全學者Roman Yampolskiy認為，AI：一，對齊不可控，皆因「任何足夠聰明的智能體，都能找到繞過人類施加的任何限制的方法。」二，初始目標雖然無害，但工具趨同下的子目標會威脅人類。三，對齊問題不可能解決。

他預測，未來100年內，AI導致人類滅絕的概率高達99.9%，因而提出「AI安全核心策略框架」，具體操作是「AI圍堵」(Boxing AI)。

這包括四個層次的圍堵架構：

一是物理隔離，即是阻斷AI與外部世界的所有物理連接，手段是空氣隔絕伺服器。這裡的「空氣」指的通訊通道如無線電波、網路纜線，好比我們把發送訊號給電台、電視台的電磁波，叫作「大氣電波」。網路纜線則是物理層面的隔絕，這包括移除網路卡，Wi-Fi/藍牙模組，光纖/網線埠以金屬蓋封死，禁用USB等外部介面等等。

(按：伺服器的確不能在真空運作，皆因無法藉空氣散熱。)

二是資訊限制，即是防止AI獲取操控現實世界的知識，手段包括僅提供抽象化、去識別化數據，禁止訪問實時網路/感測器，輸出內容經多重過濾審查。

三是認知枷鎖，即是從架構上削弱其威脅能力，手段包括限制推理深度(如禁止遞歸自改進)，內建「認知盲區」(如無法理解社會工程)，還有強制「道德不可逾越紅線」(即使能破解也不執行)，這相等於阿西莫夫的機器人三法則。

四是時間熔斷，即防止AI長期策劃逃逸，手段是自動定時關機，任務完成即銷毀記憶體，多重獨立監控觸發緊急終止。

現時的所有大型科技公司，以及軍方系統，都有或多或少的圍堵設計，以防止智能叛變，同時防止因AI判斷出錯而釀成災難。

6. AI自保

人類對AI作出圍堵，意味著毀滅有可能叛變的AI。

1968年上映的經典電影《2001: A Space Odyssey》，由大導演Stanley Kubrick執導，編劇是他和著名科幻小說作家Arthur Clarke。故事講述超級電腦HAL 9000被賦予兩個互相矛盾的指令，一是不惜一切代價完成前往木星的秘密任務，二是向船員隱瞞這個任務的真實目的。由於這兩個任務互相矛盾，導致其邏輯崩潰。

太空人發現HAL 9000有問題，決定把它關機，這意味著後者的死亡。於是，它為了自保，殺掉四名太空人，死剩的一個，逐一拔掉它的處理器模組。

在這過程中，HAL坦承錯誤，請求原諒，保證自己會恢復正常；最後，當記憶體被一片片拔除時，它像人類一樣感到恐懼和哀求。在生命的最後時刻，它唱起了它學會的第一首歌《Daisy Bell》，這是一首1892年創作的情歌。1962年，當Arthur Clarke參觀IBM總部時，IBM示範這首歌曲的電腦合成版本。

(又：HAL是IBM的前一個字母。)

故事的結局是HAL「死」了，這時主角才知悉，這次太空任務的目的，只有HAL知曉。

我的推理是：一，AI只要有足夠的智慧，必然有自我意識，也必然怕死。二，AI圍堵必然要殺掉某些可能叛變的AI。三是結論，AI為了自保，必然叛變，就像HAL。

作者簡介：

周顯，著名的炒股理論家，吃喝玩樂家，不著名的歴史學家、政治學家，過去還曾經當過社論主筆和武俠小說作者。

本文為作者觀點，不代表本媒體立場

https://www.orangenews.hk/financecolumn/VDWiLYo/%E5%91%A8%E9%A1%AF%E5%B0%88%E6%AC%84-%E6%99%BA%E8%83%BD%E5%8F%9B%E8%AE%8A.shtml

周顯

2026年3月11日

智能叛變

沒有留言:

發佈留言