#無論是2022年11月30日上線的ChatGPT,還是最近OpenAI 正式發布的迄今為止規模最大、功能最強悍的多模態預訓練模式GPT-4,都著實讓普羅大眾感受到了AI人工智慧的強大威力,宣告了強人工智慧時代的來臨。在這場人工智慧引發的破圈熱鬧之下,我們不免要進一步深入思考一個問題,為什麼這麼多年過去了,引領產業技術革命的依然是美國而不是中國?
2021年,中國以全球AI頂尖會發表的論文數27.6%的比例高居榜首,而歐盟和英國以19.0%緊隨其後,美國以16.9%位居第3。無論AI人工智慧論文發表量或專利申請量,中國在全世界範圍內都名列前茅,那麼按道理來說中國在AI人工智慧領域的研究既廣泛又深入,像ChatGPT這樣具有里程碑意義的人工智慧應用應該在中國誕生才對。雖然說自然語言理解和生成是人工智慧研究領域的高峰,想要攀登和征服就需要持續不斷地高品質資源投入,而阿里達摩院、華為以及清華大學等研究機構也在做類似的事情。不過很遺憾,最後還是美國的OpenAI率先發表了強大的ChatGPT。今天我們試圖客觀的分析下是什麼原因造成了我們沒有成為新一代科技革命的發起人,以後我們該怎麼做才能成為未來科技的領導者而不是跟隨者。
#也許是因為過去中國二十年互聯網的蓬勃發展,國內一些互聯網巨頭公司的市值可以在國際上和美國的互聯網公司掰手腕了,讓我們產生了不少的錯覺,誤以為在技術上我們也可以和美國一較高下了,但是事實真的是如此嗎?
相信大家在新聞中常可以看到,這幾年為了遏制中國發展,美國政府不斷向中國高科技產業揮舞制裁大棒。例如向中國華為公司實施技術封鎖,以國家安全為由,禁止美國公司向華為出售技術和設備。一時間中國的高階晶片產業哀鴻遍野,遭遇科技卡脖子危機。我們在感嘆美國政府無恥的同時,也為自身沒有預先佈置底層技術研究以及體系建構而感到扼腕嘆息。這次OpenAI發布的ChatGPT以及GPT4又給我們上了一課,越來越多的人認識到中國和美國的技術差距何止高端芯片,前沿的人工智能技術、強大的算力網絡等等諸多高新技術方面都和美國有不小的差距。美國政府打壓中國高科技產業發展這一巴掌,終於把一些還對美國抱有幻想的技術人徹底打醒,無論高端晶片還是前沿人工智慧等核心技術買不來也求不來,只能靠自己一步一腳印地走出來。當然這也堅定了我們和美國有關的技術類別必須全部實現國產化替代的決心。
在過去的20年當中,中國網路產業處在高速發展階段,根據CNNIC(中國互聯網絡資訊中心)報告,截至2022年12月,我國網民規模達10.67億。隨著網路線上人數的持續攀升,各種形態的商業模式在這片熱土上不斷得以驗證以及發展壯大。行動支付、電商物流、外帶叫車、短片等商業形態深刻改變了老百姓的日常生活方式,為大家帶來了極大的生活便利以及娛樂消遣,同時也提升了整個社會的效率。但同時,各大網路公司好像都沉浸在如何發展新商業模式以及維護已有商業格局的怪圈中不可自拔,幾乎所有的精力都放在業務內卷上。因此投入底層技術研究的時間和資源相對就會被擠壓甚至是完全沒有,最終導致被別人技術卡脖子的機率大大提升,同時能夠產生顛覆性創新技術的可能性卻大大降低。
對比中美兩國技術發展路線,我們可以發現一個有趣的現象。在中國,技術的發展大都是圍繞著業務進行,也就是說當一個業務模式被推出來之後,如果想要支撐這樣的業務規模就需要發展什麼樣的技術,那就研究和發展什麼技術,透過商業模式的創新、業務的發展推動技術向前發展演進。
但是美國好像正好相反,常常是一項技術的發展進步反向催生出新的商業形態。就拿推出ChatGPT的OpenAI公司來說,它原本就是一個非營利的技術組織,集結了AI人工智慧界的各路大佬,初衷就是讓人工智慧朝著友好的方向發展,核心宗旨在於「實現安全的通用人工智慧(AGI)”,使其有益於人類。 GPT模型經過不斷的迭代升級最終搞出來了ChatGPT,有望成為未來人工智慧應用技術的基礎底座,因此未來可能將會有海量的上層應用都是基於ChatGPT來進行構建,可以毫不誇張地說,ChatGPT或說通用大模型也許就是人工智慧領域的作業系統,將來會誕生多少新的商業模式以及業務形態不可估量,這場科技革命是自下而上的顛覆性創新將對未來的產業形態產生深遠的影響。
而我們太專注於上層應用商業模式的創新了,因此忽略了底層技術的研究。我們彷彿在一次又一次的電商大促、一次又一次的短視頻娛樂中逐漸迷失了方向,表面上的熱鬧掩蓋不了底層核心技術的匱乏。 其實想想就背後發涼,當下無論是網路科技、人工智慧技術等尖端技術好像都是建立在別人的科技底座之上的。那些曾經我們引以為傲的行動支付、電商物流等等不過是這些底層技術的上層應用而已。如果被人家釜底抽薪,那真的就玩不轉了。所以底層技術真的非常重要,可以說沒有底層技術的支撐,所有上層的應用都是空中樓閣。
#也許是國內競爭壓力太大了,無論是個人還是公司,都恨不得今天投進去資金,明天就能看到成果和收益。如果在短期看不到收益的項目,一般公司其實很難有持續的資源投入,更別提看不到明確回報週期的基礎技術研究了。浮躁的氛圍,層出不窮的技術噱頭,表面上的熱鬧,只會讓大家都熱衷於趕時髦追風口,卻沒有多少人能真正靜下心來進行長期的技術研究。又有多少公司可以有馬老師那樣的魄力和實力每年10個億連投10年,最後投出來個阿里雲。
說到這裡,我不知道大家還記不記得區塊鏈、VR、元宇宙這些科技名詞,一開始出現的時候受到了極大的關注和資本的熱烈追捧。但當熱頭過去之後,現在又有多少公司還在不斷地進行產品迭代,不斷地進行技術深度優化研究呢?不能說完全沒有但絕對是寥寥無幾,與其說是他們追捧高新技術,不如說他們追捧的是如何快速賺錢的工具。至於到底是VR、元宇宙還是ChatGPT其實都無所謂,對他們來說其實就是個技術名稱而已。
#但其實無論是ChatGPT或GPT4這樣的人工智慧應用,都不是橫空出世的,它們都是在GPT、GPT2以及GPT3基礎上逐步迭代發展而來的,這其中耗費了多少頂尖人工智慧專家長期堅持的心血以及大量資金的持續投入。 OpenAI在獲得微軟投資之前的三、四年裡燒掉將近1億美元,才搞出來一個以GPT第一代模型為基礎的雛形,當時還遠遠達不到ChatGPT今天的效果。基礎技術研究不是一朝一夕就能完成的事情,它需要不斷的試錯,需要對未來科技發展趨勢的獨到眼光,更需要長期主義的堅持。不過讓我們感到欣慰的是,阿里巴巴、華為在技術研究上的投入已經每年超過1000億,相信在不遠的將來一定會有新的技術突破出現。
就好比高階晶片製造,其中涉及晶片設計、晶片製造以及封裝測試都是一整套複雜的工藝缺一不可。同樣通用大模型也是一個複雜的系統工程,而通用大模型的訓練離不開海量的高品質訓練資料、優秀的深度學習演算法以及強大的算力資源支撐。 ChatGPT的成功得益於高品質的標註數據,OpenAI為了獲得高品質的訓練數據僱用了超過40家承包商進行數據標註,這在國內幾乎是不敢想像的事情。另外以ChatGPT在2023年1月的獨立訪客平均數1300萬計算,其對應晶片需求為3萬多片英偉達A100 GPU,如果沒有龐大的算力支撐,很難訓練出高品質的通用大模型。
也就是說,通用大模型的訓練需要一個完整的人工智慧技術系統來支撐,否則即使有先進的演算法,但如何獲得高品質的訓練數據,到哪裡去找龐大的訓練算力資源,這些都是擺在通用大模型訓練面前必須要解決的問題,否則沒有高品質的數據以及算力支撐也是巧婦難為無米之炊。
#通用大模型是未來人工智慧的重要發展方向,我們肯定要加大資源投入力道才能有機會在未來人工智慧前沿技術的競爭中佔有一席之地。那我們該怎麼做才能破局呢?我想可以從以下幾個面向入手。
雖然目前中文線上連網資料也算是海量,但是資料品質普遍不高,同時資料孤島問題比較嚴重。如果我們想基於中文資料來訓練通用大模型,就必須對中文線上資料進行治理以提高中文線上資料質量,解決資料孤島問題,推動實現資料的共享和互聯互通。
#結合國家東數西算工程,協調各區域的算力中心,形成全國通用算力基礎設施,加速建構國家級一體化新型算力網路體系,為通用大模型訓練提供源源不絕的強大算力支撐。這樣,才能滿足大模型訓練所需的算力要求,同時為強人工智慧時代的到來做好算力資源儲備。
和別人的技術差距,我們當然要盡力彌補。不過我們要注意的是我們在進步,別人也在進步,所以我們光追趕別人不行,還要有更加長遠的眼光,要有對於未來準確的判斷力,進行提前技術驗證以及產業佈局,為下一次科技革命做準備,真正成為未來科技發展的領導者而不是追隨者。
#科技的發展進步不是一朝一夕就能實現的,它可能需要一代又一代技術人員孜孜不倦地追求。雖然我們在許多領域都已經取得了長足的進步,但是同時我們也要清醒地認識到,在電腦領域、互聯網技術領域以及人工智慧技術領域我們還有不小的差距需要彌補。因此少一點網紅、明星的曝光,多一點科技工作者勤懇務實地宣傳,努力營造技術為先、科技為先的社會氛圍才是未來科技業蓬勃發展的社會環境基礎。我相信如果我們可以少一點浮躁,多一點純粹,也許下一次的科技革命就是在中國這片土地上誕生。最後跟大家分享下馬老師曾經說過的一段話,我覺得對我們當下思考未來科技發展非常有幫助。
我一直覺得填補空白這句話是有問題的,不是因為歐美的就是先進的,就是我們要去填補的。其實今天我們不該要和哪個東西接軌,適應哪國的標準,填補哪個空白,今天我們要思考的是怎麼和未來接軌,怎麼適應未來的標準,怎麼彌補未來的空白,我們要想明白未來是如何的,以及自己到底要做成一個什麼樣的體系,然後再去看看別人怎麼做,如果永遠重複別人的語言,討論別人設定的主題,我們不但會迷失現在,而且會錯失未來。
以上是為什麼ChatGPT不是出生在中國?的詳細內容。更多資訊請關注PHP中文網其他相關文章!