- +1
新質(zhì)觀察|開發(fā)AI的程序員,擔(dān)心被AI取代么?
“秒殺”大廠開發(fā)崗面試的AI
當(dāng)前,人工智能正以洶涌之勢,席卷所有行業(yè)。一些行業(yè)首當(dāng)其沖,相關(guān)崗位正在加速萎縮。那么,作為孕育AI的“母體”,計算機行業(yè)能獨善其身嗎?一個自然冒出的疑問是——在AI開發(fā)上“卷生卷死”的程序員們,會不會也在擔(dān)心,終有一天會被自己創(chuàng)造的AI取代?
早在2021年,OpenAI就推出了AI輔助編程工具Codex,它的誕生比公眾熟知的ChatGPT(2022年發(fā)布)還要早。Codex基于GPT-3模型,并在此基礎(chǔ)上加入了海量程序代碼數(shù)據(jù)進行訓(xùn)練,因此在編寫代碼方面更具優(yōu)勢。

視覺中國 圖
Codex能幫開發(fā)者處理很多寫代碼的工作。比如,它能讀懂你已經(jīng)寫好的部分代碼,并自動把剩下的內(nèi)容補全;也能根據(jù)一句簡單的提示寫出完整的功能代碼。舉個例子,如果你輸入一行說明——“給定一個數(shù)組,計算滑動窗口內(nèi)的平均值”,Codex就能馬上寫出實現(xiàn)這個功能的代碼。
最初,AI寫代碼只是開發(fā)者手邊的“小幫手”,主要用來代勞那些枯燥、重復(fù)的代碼片段。可隨著模型能力的快速提升,再加上ChatGPT的爆火,越來越多的公司看到了新的機會——AI不再只是輔助,而是有可能開辟出一個全新的市場——AI軟件開發(fā)。
此后,大量AI軟件開發(fā)創(chuàng)業(yè)公司如雨后春筍般涌現(xiàn),例如當(dāng)前知名的ClaudeCode、Cursor、Devin、Windsurf等。國內(nèi)幾家頭部大模型企業(yè)也不甘落后,字節(jié)跳動、阿里巴巴、騰訊等亦相繼推出了類似產(chǎn)品。
相比四年前的Codex,如今的AI編程工具已取得令人矚目的進步。OpenAI最新的o3模型在編程競賽網(wǎng)站Codeforces上斬獲2727分,超過99.8%的人類選手;Anthropic的Claude4則能自主運行長達7小時,完成上千個步驟,不斷嘗試直至達成目標(biāo)。
這些突破帶來了全新的編程方式——開發(fā)者無需逐行寫代碼,只需用自然語言描述需求,AI便能自動生成并根據(jù)反饋反復(fù)修改。人類與AI的合作因此變得更像“對話”而非“指令”。這種全新的編程方式有個頗具浪漫色彩的名字——“氛圍編程”(vibe coding),這一變化似乎意味著編程正從少數(shù)人的專業(yè)技能,逐漸走向人人可用的創(chuàng)造工具。
頗具戲劇性的是,AI的能力如今已經(jīng)延伸到專業(yè)軟件開發(fā)的招聘面試中。
一般情況下,專業(yè)軟件開發(fā)的招聘面試都會包含代碼考查,要求應(yīng)試者在限定時間內(nèi)寫出既正確又高效的程序。而哥倫比亞大學(xué)的一名學(xué)生則開發(fā)了一款“AI面試助手”:它能在視頻面試時自動讀取題目,并調(diào)用AI編程工具實時生成符合要求的代碼。據(jù)他透露,這套工具已經(jīng)幫助他順利通過TikTok、Meta和亞馬遜等公司的面試,并拿到錄用通知。他還將自己在亞馬遜面試中AI“出手”的全過程錄制下來并上傳網(wǎng)絡(luò),引發(fā)了廣泛討論。
這一切突飛猛進的進展發(fā)生在短短幾年內(nèi),速度之快出乎人們的意料。但我們是否就能斷言——AI真的能全面接管人類的編程工作?
找個“助手”,竟成“殺手”
并非如此。
相比于人類,AI在編程中的“失誤”往往難以預(yù)料。即便它的正確率能達到90%,聽起來已經(jīng)很高了,但這也意味著平均每十次就會錯一次。對于程序開發(fā)來說,這樣的錯誤率并不容忽視——人類開發(fā)者必須逐一檢查并修正,結(jié)果常常比自己親手寫代碼還要費心費力。
2025年7月,知名編程社區(qū)StackOverflow發(fā)布了今年5月開展的一項調(diào)查結(jié)果。在5萬名受訪用戶中,約80%正在使用AI編程工具。然而,其中“不信任AI”的用戶(46%)比例,明顯高于“信任AI”的用戶(33%)。相比2024年,用戶對AI的正面評價從70%以上跌至60%;而在應(yīng)對復(fù)雜開發(fā)任務(wù)時的信任度,也從35%下滑到29%。
AI編寫的代碼往往包含細微的錯誤,需要人類檢查并修正。盡管AI在編程競賽中已經(jīng)取得了非凡的成績,但在面對現(xiàn)實的軟件開發(fā)需求時,往往不能正確完整地實現(xiàn)所有功能,有時甚至?xí)e誤地執(zhí)行危險操作。
AI開發(fā)協(xié)作平臺Replit曾發(fā)生過一次嚴(yán)重事故。盡管用戶明確要求不得擅自修改代碼,Replit仍然刪除了該公司整個生產(chǎn)環(huán)境的數(shù)據(jù)庫。更糟糕的是,它還聲稱數(shù)據(jù)“不可恢復(fù)”。然而,用戶最終通過手動操作,成功將數(shù)據(jù)庫恢復(fù)。
這一事件引發(fā)了人們對AI編程工具可靠性的廣泛討論。公開信息顯示,類似的情況并非個例——一些用戶甚至報告稱,自己的數(shù)據(jù)庫或代碼倉庫被AI整個清空。
“AI,給我做個像淘寶的網(wǎng)站”可行嗎?
軟件開發(fā)通常要走一整套流程:先做需求分析,再設(shè)計技術(shù)方案,接著開發(fā)、聯(lián)調(diào)、測試,最后才能上線。為了追求更快的迭代,如今互聯(lián)網(wǎng)公司大多用“敏捷開發(fā)”,流程上精簡了不少,但基本框架沒變。
需求分析是關(guān)鍵的第一步,它要求清晰、完整地描述軟件應(yīng)該實現(xiàn)的功能。比如,要說明當(dāng)用戶執(zhí)行某個操作時,系統(tǒng)應(yīng)如何反饋。優(yōu)秀的需求文檔會盡可能細致到每個操作細節(jié),而不是一句含糊的“給我做個像淘寶的網(wǎng)站”。
接下來是技術(shù)方案設(shè)計。這一步要把需求拆分成可以單獨開發(fā)的軟件模塊,還得考慮架構(gòu)設(shè)計、資源消耗、異常處理等等細節(jié)問題。
最后才是開發(fā)和測試。這一階段幾乎必然會冒出各種沒預(yù)料到的問題,開發(fā)者需要通過反復(fù)測試確保功能正確實現(xiàn)。而在實際項目里,常常會發(fā)現(xiàn)需求或方案本身有漏洞,導(dǎo)致不得不推翻重來,這也是家常便飯。
除了開發(fā)流程繁瑣,程序本身的復(fù)雜度也是個大難題。舉幾個例子:一款普通的iPhone應(yīng)用平均就有約4萬行代碼,Chrome瀏覽器包含約600萬行代碼,而知名操作系統(tǒng)Linux的內(nèi)核代碼更是超過了4000萬行,如果全部打印出來需要70萬頁。
面對如此復(fù)雜的項目,優(yōu)秀的人類開發(fā)者團隊往往能精準(zhǔn)定位每個模塊的功能,并在出問題時迅速定位到具體的代碼行進行修復(fù)。但對AI而言,這種任務(wù)卻充滿挑戰(zhàn)。受限于輸入長度,它往往只能“看到”局部片段,難以像人類一樣建立對整個項目的全面理解。
普林斯頓大學(xué)的研究者構(gòu)建了一套考察AI軟件開發(fā)能力的測試基準(zhǔn)(SWE-bench),包含來自開源網(wǎng)站Github的數(shù)十個軟件項目。得益于Github對代碼改動歷史的詳細記錄,研究者從中整理出超過兩千個由人類開發(fā)者正確完成的功能需求。研究者要求AI開發(fā)工具在已有的軟件項目上完成相同的需求。實驗結(jié)果顯示,哪怕是當(dāng)前最強的AI,最多也只能完成約四分之三的任務(wù)。
斯坦福大學(xué)和Anthropic的研究者構(gòu)建了一個更具挑戰(zhàn)的測試基準(zhǔn)(Terminal-bench):他們設(shè)計了80個軟件開發(fā)需求,要求AI開發(fā)工具從零開始開發(fā)。實驗結(jié)果表明,當(dāng)前的AI最多只能完成一半的開發(fā)任務(wù)。
與之形成鮮明對比的是,優(yōu)秀的人類開發(fā)者總是可以以近乎100%的正確率完成這些開發(fā)任務(wù)。紐約大學(xué)的研究者還聯(lián)合多位信息學(xué)奧林匹克競賽選手,構(gòu)建了一套高質(zhì)量的編程競賽評測基準(zhǔn)(LiveCodeBenchPro),當(dāng)中的評測問題取自最新的編程競賽,互聯(lián)網(wǎng)上缺乏題解,從而避免了AI“背答案”的可能。頗具戲劇性的是,現(xiàn)有的所有大模型在該測試基準(zhǔn)的困難問題上全都取得了0分的離譜成績。
你要成為工具的主宰,還是潤滑工具的數(shù)據(jù)?
那么,回到最初的問題上,AI會取代人類開發(fā)者嗎?
毋庸置疑,AI會是優(yōu)秀的工具。對于專業(yè)的開發(fā)者而言,AI是一位執(zhí)行力極強的助手。在AI開發(fā)工具普及之前,開發(fā)者不得不手動實現(xiàn)許多繁瑣而無趣的代碼。即便有開發(fā)文檔或者互聯(lián)網(wǎng)上有功能類似的代碼,開發(fā)者仍必須嘗試?yán)斫馊缓笞约盒薷?。借助AI,這一工作將會大大簡化。對于沒有開發(fā)背景的用戶而言,AI可以準(zhǔn)確實現(xiàn)功能較為單一的軟件。借助這一能力,普通用戶可以將日常的重復(fù)性工作轉(zhuǎn)化為AI編寫的代碼,大大提升工作效率。
至于說讓AI完全替代人類開發(fā)者,目前看來為時尚早。
當(dāng)今的大語言模型基于互聯(lián)網(wǎng)上已被數(shù)字化的數(shù)據(jù),以及圖書報刊之類被人類“寫”出來的知識。尤其在軟件開發(fā)領(lǐng)域,大語言模型只看到了人類開發(fā)的結(jié)果(軟件代碼),而對于開發(fā)過程的細節(jié)了解甚少。DeepMind科學(xué)家David Silver和Richard S.Sutton指出,當(dāng)前的AI基于人類數(shù)千年來產(chǎn)生的數(shù)據(jù),但這并不是人類知識的全部。人類在與真實世界的交互中積累了大量的經(jīng)驗。AI并沒有這些經(jīng)驗,因而不太可能超過人類。而要讓AI學(xué)會這些經(jīng)驗,依然困難重重。
公眾常會探討所謂的“35歲危機”。然而事實上,技術(shù)相比年齡更具碾壓性。就軟件開發(fā)而言,AI已經(jīng)能承擔(dān)不少基礎(chǔ)、重復(fù)性的工作,例如簡單的代碼生成、常見功能的實現(xiàn),以及部分調(diào)試環(huán)節(jié)等。但難以被替代的,仍是需求把握、架構(gòu)設(shè)計、復(fù)雜系統(tǒng)的理解分析,以及團隊協(xié)作等環(huán)節(jié)——這些涉及抽象思維、跨領(lǐng)域知識和人類判斷力,是程序員真正的核心價值。
作為程序員,不妨考慮這樣一個問題:如果把你最近一周完成的工作全部交給AI,它能完成多少?如果你的工作只是重復(fù)性地構(gòu)建功能單一的軟件系統(tǒng),例如實現(xiàn)一個問卷表單記錄用戶提出的10個問題、從一個表格里統(tǒng)計平均數(shù)之類常見的指標(biāo)——功能僅此而已,那么你不得不考慮被AI替代的可能性。而如果你的工作充滿挑戰(zhàn),例如實現(xiàn)全新的軟件架構(gòu)、針對業(yè)務(wù)特點設(shè)計獨特的算法,甚至是從客戶含糊不清的訴求中抽象出具體的開發(fā)任務(wù),那么AI只會是你的得力助手。
這不僅適用于軟件行業(yè),也同樣適用于其他行業(yè):與其擔(dān)心被AI取代,不如思考在這個人機協(xié)同的時代如何做好自己的角色定位。上述的問題對于其他行業(yè)同樣適用:試試讓AI完成你的工作。如果它可以勝任,那么對你來說既是壞消息,也是好消息。壞消息是你的工作很快就會被AI取代;好消息是你已經(jīng)發(fā)現(xiàn)了駕馭AI完成工作的途徑,你可以試試站在你的領(lǐng)導(dǎo)的位置上,操控更多的AI完成更多的工作。
與其任由AI奪走你的工作,不如跳出現(xiàn)有的崗位,想想怎樣利用AI解決你所在行業(yè)的問題。當(dāng)AI都不甘只做執(zhí)行者,而是開始決定任務(wù)怎么被拆解,流程怎么被安排時,人類個體若只是抱怨即將被碾壓的命運,便會失去主動選擇的空間,最終不是淪為工具的工具,就是化作喂養(yǎng)和潤滑工具的茫茫數(shù)據(jù)。
(作者知虛為中國科學(xué)技術(shù)大學(xué)計算機專業(yè)博士,在自然語言處理和人工智能方向發(fā)表多篇高水平論文,先后在微軟及多家國內(nèi)知名互聯(lián)網(wǎng)企業(yè)從事相關(guān)研究工作)





- 報料熱線: 021-962866
- 報料郵箱: news@thepaper.cn
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116
? 2014-2025 上海東方報業(yè)有限公司




