st
指數
  • 富时隆综指1,512.57+0.620+0.04%
  • 富时10011,083.28+3.180+0.03%
  • 富时全股项11,308.43+6.620+0.06%
分享

問ChatGPT問上癮 AI時代公司數據安全嗎?

- 文 +

了解多一些:大語言模型與聊天機器人關係

大語言模型(LLM)是一種基於大量數據進行預訓練的深度學習模型,擁有數十億甚至數兆的參數並通過學習海量的文本數據(例如互聯網上的書籍、文章、網頁等)來理解語言的語法、語義、上下文,並掌握豐富的知識。

其核心能力是理解、生成和處理人類語言,它可以執行多種任務,如回答問題、總結文檔、翻譯語言、創作文本、編寫代碼等。

LLM“產品”或“應用”

時下的開源LLM包括Open AI的GPT、Meta的Llama、深度求索DeepSeek、mistral(歐洲開發)、穀歌的Gemma、阿裏巴巴的通義千問等。

如果說LLM是技術的核心,那麼ChatGPT類聊天機器人則是基於LLM的“產品”或“應用”,它基於大型語言模型構建,並經過額外的微調來使其更適合進行流暢、自然的對話交互。

用汽車為例,LLM就像汽車的引擎負責提供動力,而ChatGPT就像一輛完整的汽車,它把引擎(LLM)裝配起來,加上座椅、方向盤等其他部件,最終成為一輛可以直接駕駛和使用的產品。

劉哲涵

劉哲涵表示:如果偶爾輸入一些敏感信息,可能沒那麼快出問題。但如果大家不斷地輸入類似的信息,AI模型就有可能“記住”這些數據,並在某些情況下,讓這些信息被不該看到的人看到。

報道:鄭美勵

攝影:謝德煜

無論你是否察覺,從個人日常使用ChatGPT安排旅行計劃,到企業利用AI進行數據分析、生成報告、自動化流程……社會正逐漸被人工智能(AI)滲透。AI無疑是提升效率與便利的利器,但它亦是柄雙刃劍,若運用不當,潛在的風險不容忽視。我們該如何駕馭AI的優勢,同時規避其可能帶來的負面影響?

AI聊天機器人,如ChatGPT、Gemini和DeepSeek因其易用性和強大功能在全球範圍內迅速普及。無論公司是否知情或允許,許多員工在工作中借助這些工具,而企業敏感或機要信息外泄的風險便隨之增長。

2023年,三星一名軟體開發工程師在資料庫程式開發期間發現程式碼錯誤,於是將整份程式碼複製貼到ChatGPT對話中,以尋找臭蟲及解決方案。

好消息是,AI迅速替他解決難題,壞消息是幾天後,公司資安部門追查一則異常流量,才發現那段程式碼早已將未公開的技術機密暴露於開放平台。其他外泄的資訊還包括半導體設備量測資料庫、生產/瑕疵設備相關軟體,以及一份公司會議語音轉錄的文字記錄摘要。

該公司原本因資安考量而禁止員工使用ChatGPT,後來在員工要求下解除禁令,不料使用不到20天即發生連續泄漏公司機密事件。

問ChatGPT泄露機密

這僅僅是眾多泄露案例中的一個縮影。AI數據科學專家劉哲涵博士指出,ChatGPT類工具的普及使許多公司都面臨著相似的挑戰。例如,某些企業基於資安考量而屏蔽ChatGPT,但卻沒有屏蔽穀歌或其他類似的AI工具。更重要的是,員工總有辦法規避公司限製。他們可能不會使用公司電腦上傳敏感信息,而是利用個人手機或電腦。在這種情況下,公司很難做到滴水不漏地防範信息泄露。

他直言,想要完全杜絕信息外泄幾乎是不可能的,除非公司采取極端措施,比如完全禁止員工上網,並要求所有工作數據僅限在公司內部處理。即便如此,也無法保證百分之百的安全。

正確使用AI工具

盡管無法完全消除泄密風險,但仍可采取一些措施來降低風險。公司組織層面可製定清晰的AI使用政策、培訓員工和提升醒覺度、部署數據防泄露係統和網絡監控工具,進行監控與審計、限製使用等;而員工、個人層面在使用數據時,務必對數據進行分類處理:

●公開數據

可在公共領域獲取的數據,例如公司注冊信息可在公司委員會查詢,屬於半公開性質,這類數據上傳至聊天機器人平台,風險相對較低。

●敏感數據

包含個人身分信息,如電話號碼、身分證號碼、信用卡交易記錄等。這些數據一旦泄露可能會帶來風險。他提醒,這類數據必須進行處理,移除或替換識別性信息,例如隱藏電話號碼的中間幾位、身分證號碼的多數號碼等,以降低泄露風險。

●機密數據

屬於企業或個人核心資料,例如軍事機密、半導體公司的研究數據、醫療病患的隱私數據、公司的銷售數據等,絕對不能上傳任何AI平台或模型。

劉哲涵

劉哲涵他示範在沒有網絡連接的普通蘋果電腦上運行DeepSeek,要求DeepSeek提供笑話。

自建LLM保護機密

此外,劉哲涵也提醒:

1.下載應用程式時分辨真偽

看到應用程式商店裏有ChatGpt、DeepSeek就直接下載?小心,可能下載到冒牌貨或攜帶病毒的應用程式。ChatGpt橫空出世後,穀歌應用程式商店湧現多個同名但並非由OpenAI所開發的版本。

2.防範釣魚網站

黑客可能把釣魚網站偽裝成免費的AI工具以竊取用戶名、密碼及個人資料。

3.下載LLM至個人電腦

倘若想提升數據安全及隱私防護等級,亦可考慮下載開源版本的大語言模型(LLM)至個人電腦。劉哲涵指出,這意味著所有的數據處理都在個人電腦上進行,不上傳至任何雲端(相關LLM)伺服器,也就不會被模型提供商獲取,更不會在傳輸過程中被黑客截取。

是的!機密數據外泄可能發生在任何一個環節,並不隻是限於使用AI模型,以及AI模型是否會“記住”你喂食的數據並加以泄露。比如連接免費公共WiFi時,黑客就有可能在數據傳輸過程中截取你的資料,上傳過程其實是將數據暴露在充滿不確定性的網絡環境中。

盡管劉哲涵認為操作上並不難,但真正會去下載者估計隻占少數,“因為他們一直以為這個很難而且很多人也不擅長。所以這不是一個技術問題,是教育問題。這個東西其實不難、它其實就是你下載後,在普通的電腦就可以運行,安全性又很高,所以大家應該去做。”

4.自建LLM

對於涉及機密資料的處理,他認為企業甚至可考慮開發或引入內部部署的LLM,這相當於建立專屬的AI數據處理中心,所有數據都將在公司電腦上處理,從而大大降低泄露風險,實現更高的定製化和安全性。

AI

AI無疑是提升效率與便利的利器,但它亦是柄雙刃劍,若運用不當,潛在的風險不容忽視。(取自Elements Envato)

建大語言模式考量

1.預算

劉哲涵指出,如果企業隻需處理內部數據,無需像ChatGPT那樣擁有數千億參數,隻需搭建參數量較小(例如70至80億參數)的LLM即可,成本也相對的低。

2.數據量是否充足

3.數據性質與來源

以零售業為例,由於商品價格數據例如100 Plus多少錢或二手車價格等信息通常是公開透明且可在公開網站查獲。企業一般無需自建LLM,直接利用外部已有的LLM即可滿足需求。

大馬企業少有自建LLM

一些行業如金融、醫療、半導體、政府機構等,由於數據高度機密性、獨有性且無法從公開渠道獲取,自建LLM成為確保數據安全和有效分析的方法。

例如金融業處理大量客戶的借貸資料,可能需要分析“多少客戶借了多少錢”、“多少屬於呆賬”、“多少尚未償還”並以此製定相應的策略和方法。這些都涉及高度敏感的個人財務信息;半導體公司擁有大量研究數據,均為核心的研發成果和商業機密;醫療和醫藥行業擁有大量病人機密數據,這些數據在網上搜索不到,必須在內部安全地處理。

“如果安全是你的首要考量,自己下載使用是最好的選擇。至少在使用時你可以無需顧慮。你問了什麼、想要做什麼,都沒有人會知道,也不會留下任何數字足跡,所有數據都隻留在你的電腦裏。而且這種模型是沒有記憶的,它不會記住你之前問過的問題。你每次提問,它都會給出全新的回答,這是大語言模型的一大優勢。這也是為什麼DeepSeek問世時會震驚整個科技界,包括美國,因為它開源且可以不必上網,離線運行,非常方便。”

3原因建不成LLM

劉哲涵表示,大馬企業自建LLM的情況並不普遍,甚至少於1%,主要原因在於:

1.缺乏認知:

許多公司不知道市面上有如此多適合的LLM可供選擇;

2.數據收集習慣:

中小企業占全國企業的97%,普遍沒有收集數據的習慣,數據量不夠充足;

3.算力與人才:

企業構建LLM整個過程涉及諸多考量,包括購買哪些硬體設備、投入資金、需要聘請哪些專業人員來搭建和維護係統……等,正因為這些複雜因素,大多數公司無法立即下決定並在短時間內構建自己的LLM。

無需恐懼擁抱AI

劉哲涵認為,社會對AI普遍存在莫名恐懼或誤解,這源於對其作為新興領域的不了解,“AI真正進入大眾視野也才兩年左右,大家對其不了解就會害怕。”他以電動車為例,指出自動駕駛從安全性角度優於人類駕駛,但人們仍會因“無人駕駛”而感到不安。

工作需求仍存在

他鼓勵企業無需恐懼反而應該擁抱AI,一旦熟悉並習慣AI,企業反而會發現沒有AI“日子不好過”。在他看來,AI雖然導致部分工作被取代,但亦有可能是被取代的工作原本就不那麼必要。更重要的是,工作的需求依然存在。

盡管大企業裁員新聞頻傳,但中小型企業卻面臨請不到人的窘境。例如,在新山,行政文員的薪資即使達到2000多令吉也無人問津,許多人寧願去新加坡從事洗碗工,賺取2000多新幣。AI的出現恰好可以彌補這一缺口,幫助中小企業解決運營難題,提升效率。

他在與眾多中小企業接觸中發現,許多企業主普遍將AI視為解藥,期望通過簡單學習或引入AI工具,就能一勞永逸地解決所有經營管理難題。

“他會說我先學了AI就可以解決那個問題,但是很多時候,可能有些是生意模式設計的問題,有的是人的問題,可能老板要員工不要,有些是員工很想要老板不要,所以很多這種文化上看不到的問題。”

投入心血和探索

其次,中小企業應用人工智能(AI)的主要障礙並非技術獲取的難度,而是對AI“應用場景”的認知不清和選擇不明。例如不清楚應該在哪些具體的業務環節、針對哪些痛點問題來部署AI,才能發揮其最大效用。這導致AI應用常停留在生成營銷文案、製作宣傳圖片等淺顯層面,遠未能觸及AI改造業務、提升核心競爭力的潛力。

因此,中小企業若期望將AI深度融入其運營體係,在激烈的市場競爭中脫穎而出,乃至成為行業領跑者,就必須投入更多的心血和探索。這遠非簡單地購買一套AI軟件或升級硬件設備就能一蹴而就的事情,關鍵在於理解和挖掘AI的實際價值。

自動化高效完成

除了目前已廣泛應用於內容創作、翻譯、摘要、數據分析、報告生成,劉哲涵看好AI在商業上的下一個突破是智能體(AI Agent,又稱AI代理)。

“智能體其實最主要是自動化,”例如A先生要向公司報銷,就必須拍下餐廳收據、手動記錄消費的餐廳、金額並進行分類,過去企業裏是由會計文員來處理這類數據。有了AI助力,A先生隻需拍下照片,AI就能識別出用餐地點、消費金額,並自動進行分類和記賬,這即為自動化。

“在自動化過程中,有些任務是人類難以高效完成的。比如一次性查看500張收據會讓人眼睛疲勞,這時AI就能代勞。這種能代替人類完成特定任務的AI,我們就稱之為智能體。智能體可以專門幫你處理收據。”

應用於更複雜場景

智能體不僅限於簡單的記賬,還可以應用於更複雜的場景,例如審計(自動對賬單和賬本)、生產線監控(機器數據收集與分析)、新聞彙整並語音彙報等,“智能體在自動化裏面扮演很重要的角色,自動化流程中扮演著核心大腦的角色。”

有而,對穀歌下指引或使用專屬應用程式,不也可以達到同樣的目的嗎?他指出,智能體能夠去除人類下指令的環節。例如,它可以設定在每天早上9點自動幫用戶查看新聞,無需用戶手動輸入指令便可自動完成任務。

再比如,當客戶發送郵件時,智能體可根據郵件內容進行判斷:如果郵件是投訴衣服尺寸不對,它會將其轉給客服部門;如果郵件是詢問購買200件白色長袖T恤,它會將其發送給采購或銷售部門,“這些一般上是要靠人去做的,有了智能體,智能體能夠根據文字或圖像進行判斷,並將信息自動分發給不同的人,這也是它強大的功能之一。”


相關新聞

人工智能
AI
ChatGPT