AI 的中期未來樣貌

最近很多人在養龍蝦(OpenClaw),用它來幫忙寫程式什麼的。我自己是沒有去弄這個,因為總覺得讓 AI 寫程式很不安全,必須要我去監督它寫才行。如果這樣的話,那我幾乎就已經是個軟體工程師了,跟 AI 的願景——減少人類工作量、提高效率——好像是背道而馳。

我是用了 Claude in Chrome 才真正了解到 AI 的威力(至少是短中期而言)在哪裡。簡單來說就是:AI 取代的不是電腦方,而是使用者方。

我們可以把「人操作 app」拆解成三個部分:人(使用者),UI,以及 app。UI 就是 app 暴露給人類的操作介面,有圖形的 GUI 與文字輸入的文字框等等。人們透過觀看與操作 UI,來與 UI 後面的 app 進行互動。

之前我一直以為 AI 取代的是 UI 後面的 app 以及 UI 本身,但我用了 Claude in Chrome 之後發現我想反了。AI 現在已經可以取代掉人類,自己來當使用者了。

為什麼要開發人形機器人

人形機器人在技術上是特別困難的,因為要去模擬人類做兩隻腳的平衡與運用等等的,還有各式各樣的關節要驅動。

那為什麼要開發人形機器人?是因為情感上或者形而上的原因嗎?

不,我覺得是因為人形機器人是很便宜的解決方案。

因為一台人形機器人,不用做任何硬體上的改動或客製化,就能夠部署到任何原本是人類做的工作崗位上面。它可以去開一台超級舊車,可以去操作任何機器(我想到的是咖啡廳的濃縮咖啡機),可以去操作任何非機器的器具(嗯,它可以做手沖咖啡)。

所以人形機器人的單一開發成本雖然很高,但是如果能進到大量生產的話,就可以壓低價格。而這種泛用型的機器人因為只需要一種形式,產品線可以縮減到很少,所以更容易大量生產。

這樣子的機器人,目的並不是要取代各式各樣特製的工具與機械。它沒辦法取代咖啡機。它們的目的是取代「操作咖啡機的人類」。

Claude in Chrome 的情況

Claude in Chrome 就跟人形機器人一樣,並不是要取代各種 web app,而是要取代操作 web app 的人類。而且這是已經發生的事情。

我之前忘記為了什麼問題,而打給 Apple 客服求救過。Apple 客服能夠遠端直接控制我的手機螢幕進行操作,我就只是拿著我的手機看著虛擬的手指在操作我的手機螢幕。那位客服人員一邊操作一邊跟我溝通,然後一下子就把我的手機弄好了。

Claude in Chrome 的使用體驗跟這個遠端客服一模一樣。

我打開 Chromium(Ungoogled!),打開 Claude 外掛的對話視窗,然後請它幫我做一些事,比如說搜集各個社群媒體網站上的當日通知之類的。接下來,Claude 就像一個遠端的客服一樣,接管了我的 Chromium,在我面前操作給我看。最厲害的是,它在第一次嘗試就達到了我的要求。

簡單來說,我得到了一位可以遠端控制我的瀏覽器的助手。

瀏覽器是極佳的沙盒環境

為什麼是瀏覽器率先得出這種未來體驗?為什麼不是桌面系統?

我想是因為瀏覽器本身的執行環境是 AI 可以更容易操作的,因為到處都是可以直接調用的 script。除了可以透過瀏覽器外掛與瀏覽器 API 去控制瀏覽器之外,更可以用 JavaScript 之類的東西直接去操作網頁。要看到網頁的原始碼也很簡單,因為 HTML 是沒有編譯過的東西。

瀏覽器幾乎是為了 AI agent 而量身打造的執行環境。

現在的 App Intents 或者 Android 的類似 API 都是想把作業系統本身也打造成類似的環境。但對一般消費者而言,現在就可以在瀏覽器裡面體驗到「別人幫你操作系統」的感覺了。

相信將來的不久,這個體驗也會慢慢擴展到操作系統層,但我感覺還要一段時間,因為這需要大量的 app 開發者去配合實作。而在 web app 方面,卻是大家一開始就已經擁有的東西。

對一般使用者的影響是什麼

好處是,你現在多了一個便宜的幫你上網做事情的助手。而因為現在很多 app 都有網頁版,所以這個助手可以做的事情就超多的。雖然慢,但是它就是全自動的,你可以去做別的事情讓它自己跑。

壞處是,如果你是靠做一些重複性的工作來賺錢的話,那你很有可能會被 AI 取代。它一個月最少不到 1,000 元,然後上手的速度又超快。對企業來說就是一個超低價且品質有保障的派遣員工。

然後對我來說,這意味著我根本不用去追 AI 能做到什麼事之類的,串什麼自動化工具之類的,學什麼 API 之類的。Claude in Chrome 的自動化流程基本上就是這樣:

  1. 跟它說你想要它做什麼事情。
  2. 它跑過一輪,你確認沒有問題。
  3. 把這個對話存成「捷徑」,並設定成定期自動執行。
  4. 沒了。

對,就這樣,沒了。中間完全沒碰到 API,甚至自動化工具都沒有。它光靠 GUI 就可以做到整套自動化,而且還定期執行。

它的缺點是執行起來很慢,跑一個流程說不定要好幾分鐘,比不上自動化工具敲 API 可能幾秒就好的事。但說實在的,這重要嗎?對終端消費者來說,他的電腦擺在那邊也沒在用啊,每天在背景跑個幾分鐘 AI,對他來說根本沒差。重點是一般人只要會講需求就可以用,不用學東西也不用花時間。

大方向來看呢

我會覺得如果想在未來最好的利用 AI 的話,現在要做的事反而不是去研究 AI。或者說,不去跟風玩 AI 應用之類的。比如說我現在就覺得 n8n 什麼的好像可以直接被 Claude in Chrome 之類的取代了。除非你是頂尖 AI 研究者,不然那些 AI 研發公司的頂尖 AI 研究者應該開發的速度會比你快吧。市面上超多 AI 新創都是被某個 AI 模型更新,或甚至 AI app 的小功能更新給打趴的。

現在更應該想的是:我的需求是什麼?我想要叫人來幫我做什麼事?我做的哪些事情是重複性、耗時間的?哪些事情是非我自己做不可的?

也就是開始累積關於自己的資料。不一定要量化的,質化的也可以,像我就想要開始寫工作日誌之類的。等到累積一段時間之後,就可以要 AI 幫忙做 review,找出有哪邊是可以用 AI 做自動化的。

當然啦,未來的 AI 可能也可以監控你的螢幕,或甚至透過自拍鏡頭去監控你的實體狀態,來累積關於你的資料。但我覺得自己紀錄資料也是一種整理自己狀態的方法,本身就是有好處的。更不用說有個 AI 整天在監控你是蠻恐怖的一件事。

許立衡

許立衡

作者。敘事鋸創辦人。
Taiwan