
北京時(shí)間2月26日,美國(guó)AI頭部公司Anthropic宣布收購(gòu)視覺(jué)驅(qū)動(dòng)計(jì)算機(jī)自動(dòng)化AI初創(chuàng)公司Vercept ,補(bǔ)全Computer Use功能的視覺(jué)短板。這是繼2025年12月收購(gòu)全棧工具鏈初創(chuàng)公司Bun后,Anthropic第二筆收購(gòu)案。
Computer Use是Anthropic為旗下大模型Claude打造的AI 直接操控電腦的核心能力,讓Claude可以像人一樣“看屏幕、動(dòng)鼠標(biāo)、敲鍵盤(pán)、操作軟件”,完成多步驟、跨應(yīng)用的復(fù)雜任務(wù),于2024年10月隨Claude 3.5 Sonnet一同發(fā)布。
但由于模型早期在視覺(jué)理解精度、復(fù)雜界面識(shí)別、動(dòng)態(tài)場(chǎng)景處理方面存在瓶頸,導(dǎo)致Computer Use操作成功率低、任務(wù)易失敗。而Vercept在高精度UI識(shí)別、空間推理、動(dòng)態(tài)界面跟蹤、低延遲視覺(jué)處理等方面的積累,正好可以補(bǔ)齊上述短板。
據(jù)Anthropic官方披露,開(kāi)發(fā)者正使用Claude來(lái)處理越來(lái)越復(fù)雜的工作,包括編寫(xiě)和運(yùn)行整個(gè)倉(cāng)庫(kù)的代碼,綜合數(shù)十個(gè)來(lái)源的研究,管理跨多個(gè)工具和團(tuán)隊(duì)的工作流程等。Computer Use能讓Claude像人坐在電腦前一樣,在各種軟件里實(shí)時(shí)操作,完成很多只靠代碼搞不定的多步驟任務(wù)。此次收購(gòu)Vercept能夠幫助公司進(jìn)一步提升這些能力。
Vercept總部位于美國(guó)西雅圖,由艾倫人工智能研究所(Allen Institute for AI,AI2)校友創(chuàng)立,定位視覺(jué)優(yōu)先(Vision first)的AI Agent,主打“像人一樣看屏幕、操控電腦”的無(wú)API自動(dòng)化。核心團(tuán)隊(duì)成員分別負(fù)責(zé)機(jī)器人與具身智能、AI Agent與強(qiáng)化學(xué)習(xí)等方向。
基于技術(shù)積累與創(chuàng)始團(tuán)隊(duì)背景,Vercept在2025年1月完成1600萬(wàn)美元的種子輪融資,估值約6700萬(wàn)美元,投資人名單包括前谷歌CEO埃里克?施密特、谷歌DeepMind首席科學(xué)家杰夫?迪恩、Cruise創(chuàng)始人凱爾·沃格特等人。后續(xù)Vercept籌集資金總額約5000萬(wàn)美元。
Anthropic認(rèn)為Vercept在感知與交互方面的專(zhuān)業(yè)知識(shí),可直接適用于Anthropic 正在處理的一些棘手問(wèn)題。Vercept桌面應(yīng)用Vy將在30天內(nèi)關(guān)閉,作為過(guò)渡的一部分,Vercept鼓勵(lì)用戶在服務(wù)結(jié)束期間嘗試Anthropic的Claude工具作為替代方案。
談及此項(xiàng)收購(gòu)考量,Vercept聯(lián)合創(chuàng)始人盧卡?韋斯(Luca Weihs)表示,未來(lái),Claude完成知識(shí)型工作任務(wù)的能力將與它今天編寫(xiě)代碼的水平相當(dāng),這意味著人們與計(jì)算機(jī)的交互方式可能會(huì)發(fā)生根本性改變,以確保這種交互體驗(yàn)與底層模型一樣重要。
該項(xiàng)收購(gòu)案反映出在打造能夠操控電腦和其他設(shè)備、為用戶完成任務(wù)的AI Agent賽道競(jìng)爭(zhēng)日益激烈。除了Anthropic,OpenAI也在積極布局。2月中旬,OpenClaw創(chuàng)始人彼得?斯坦伯格(Peter Steinberger)宣布全職加入OpenAI,負(fù)責(zé)下一代個(gè)人 AI Agent 開(kāi)發(fā)。OpenClaw項(xiàng)目并未被OpenAI收購(gòu)、不并入公司,而是轉(zhuǎn)入獨(dú)立開(kāi)源基金會(huì),繼續(xù)保持 MIT 開(kāi)源協(xié)議與社區(qū)自治。OpenAI為其提供資金、技術(shù)與模型資源贊助,但不擁有,也不控制項(xiàng)目決策。通過(guò)“人才引入”的方式,補(bǔ)齊OpenAI在個(gè)人端AI Agent方面的落地能力,對(duì)沖Anthropic在企業(yè)級(jí) Agent 上的領(lǐng)先優(yōu)勢(shì)。
雖然操作方式有差異,但本質(zhì)上是兩家公司對(duì)AI Agent賽道的下注。Anthropic創(chuàng)始人達(dá)里奧?阿莫迪(Dario Amodei)近期在一檔訪談中表示,AI演進(jìn)的終極形態(tài)不是文本生成器,而是擁有計(jì)算機(jī)通用控制權(quán)(Computer Use)的閉環(huán)執(zhí)行系統(tǒng)。它能像人類(lèi)一樣通過(guò)觀察屏幕、查閱歷史、理解上下文并跨平臺(tái)協(xié)作,完成視頻編輯、軟件工程等復(fù)雜生產(chǎn)任務(wù)。
而目前行業(yè)的主要障礙在他看來(lái)不是智力,而是交互可靠性——即模型能力已足夠強(qiáng),但穩(wěn)定、準(zhǔn)確、不出錯(cuò)地完成一項(xiàng)任務(wù),仍有不足。未來(lái)一至三年,AI將通過(guò)長(zhǎng)上下文管理與計(jì)算機(jī)視覺(jué)控制的結(jié)合,解決大部分需要“在職學(xué)習(xí)”(On-the-job Learning)的崗位需求。