摘要
全參數微調屬於長期模糊記憶,容易產生幻覺,就好像閉卷考試,人類回答問題時會突然忘記課本內容、記錯課本內容、亂回答。
上下文學習屬於短期精確記憶,就好像開卷考試,人類回答問題前先開書看一遍相關課本內容,用明確的短期記憶,克服全參數微調長期模糊記憶的問題。
本研究成功開發出混合學習 (Hybrid Learning) 技術,先使用長期模糊記憶的全參數微調:先用pretrain的非監督式學習博覽群文,再用instruct的監督式學習刷題,提高模型的基本能力後,再使用短期精確記憶的上下文學習,克服幻覺問題,應用在難度最高的繁體中文鸞文解析。
作者
• 李明達
• 立達軟體科技創辦人
• 台灣大學兼任副教授
• 台灣科技大學兼任副教授
鸞文介紹
神明駕降在鸞生身上,執鸞筆,在桌上寫出文言文用以傳達神的旨意,是為鸞文。
由於鸞文格式特殊,又以文言文組成,其中常有難度較高的用字,因此,一般信眾難以解讀。
本研究採用最新大型語言模型技術,使用《內壇見聞》及《武德真經》七講的字幕檔案進行訓練, 提高AI對於鸞文的理解能力,輔助信眾了解鸞文內容。
最新大型語言模型技術介紹
In-Context Learning:可以帶一張A4紙的開卷考試,適合臨時性任務及高正確性任務,不需要訓練,快速佈署。
LoRA:考前臨時抱佛腳,在資源有限的情況下,實現高效率微調,適用於多任務情境。但會造成模型能力下降,不建議使用。有幻覺問題。
Full Parameter Fine-Tuning:考前認真唸書,當有足夠的訓練運算資源和資料時,追求最快回答速度的選擇。有幻覺問題,需搭配使用In-Context Learning。
RAG:可以帶幾本書的開卷考試,需要「最新知識」的任務,先搜尋再回答,如即時問答、資訊檢索、投資分析。成敗在於搜尋演算法的優劣。
Hybrid: Full Parameter Fine-Tuning 搭配使用In-Context Learning,將幻覺降到最低。
詳細說明
1. In-Context Learning(上下文學習):無需參數更新,即時回答問題,適合少樣本情境。
概念:
In-Context Learning 是指模型在推理時,直接從給定的輸入文字中學習,不需要更新模型的參數。 模型利用輸入文字中的範例和提示,來理解任務並生成相對應的輸出。
用於少量資料,很像人類的開卷考試,在回答問題前先翻書看一下課本內容。
由於是短期記憶,回答精確,不易產生幻覺。理論上可支援128K tokens 長度的上下文,但是實用的長度在 8K tokens以下,對於上下文理解較佳。
一個繁體中文字大約是2個token 長度。也就是說4千個中文字以下的理解能力較好,理解速度也較快。超過4千個中文字會有回答時間較長以及理解能力下降的問題。
特點:
(a) 即時學習,模型能夠在沒有事前訓練的情況下,根據上下文了解回答所需的知識。
(b) 不需要參數更新,也不需要重新訓練或微調模型,節省了訓練時間和計算資源。
(c) 回答問題時,需要多花時間理解上下文。
(d) 理論上可支援128K tokens 長度的上下文,但是建議使用的長度在 8K tokens以下,對於上下文理解較佳。
應用:
(a) 小樣本學習(Few-Shot Learning):在提供有限範例的情況下,模型仍能執行新任務。
(b) 零樣本學習(Zero-Shot Learning):模型在沒有任何範例的情況下,依靠提示完成任務。
(c) 適用於不允許幻覺的系統及需要使用精確數字的應用。
2. LoRA(Low-Rank Adaptation):高效率微調,但會降低模型原有能力,適用資源有限環境。
概念:
LoRA 是一種高效率的模型微調方法,透過在預訓練模型的權重矩陣上添加輔助矩陣,達成對模型的調整。但會降低模型的原有能力,極不推薦使用。
特點:
(a) 參數具高效率:只需要調整少量新增的參數,減少了儲存和計算成本。
(b) 保持模型穩定性:原始模型的權重保持不變,降低了過度擬合的風險。
(c) 易於佈署:微調後的模型大小僅有少量增加,便於在資源有限的環境中佈署。
(d) 會降低模型的原有能力,極不推薦使用。
應用:
(a) 多任務學習:可在不干擾原始模型的情況下,適應多個不同的任務。
(b) 資源有限環境:適用於計算資源有限的使用情境,如行動裝置或嵌入式系統。
3. Full Parameter Fine-Tuning(全參數微調):針對特定任務重新訓練模型,適用於大量資料情境。
概念:
全參數微調是指在特定任務或資料集上,對模型的所有參數進行重新訓練。很像人類的閉卷考試,透過事先花時間研讀課本產生長期記憶來回答問題,適用於大量資料的訓練,融會貫通。
但是跟人類一樣會有記憶模糊、記錯、及亂回答的幻覺問題。
特點:
(a) 高靈活性:模型能夠深入適應特定任務,可能獲得最佳效能。
(b) 計算成本高:需要大量的計算資源和時間進行訓練。
(c) 風險:可能導致過度擬合,尤其是在資料量較小的情況下。
應用:
(a) 專業領域應用:如醫療、法律、文言文、鸞文、解籤等,需要模型深入理解大量專業知識。
(b) 大型資料集:在有豐富資料支持的情況下,充分發揮模型能力。
4. RAG(Retrieval-Augmented Generation):結合檢索與生成的方式,適用即時資訊檢索。
概念:
RAG 結合了搜尋和生成兩種機制。
首先,從外部知識庫中搜尋相關的文字片段,然後將這些片段與輸入一起作為上下文,生成最終的回答。很像人類先用搜尋引擎找出最相關的幾筆資料,先瀏覽,再整理回答。建議瀏覽內容越短越好。
理論上可支援128K tokens 長度的上下文,但是實用的長度在 8K tokens以下,對於上下文理解較佳。
一個繁體中文字大約是2個token。也就是說4千個中文字以下的理解能力較好,理解速度也較快。超過4千個中文字會有回答時間較長以及理解能力下降的問題。
特點:
(a) 知識豐富:通過檢索最新的或特定領域的資訊,增強模型的知識庫。
(b) 動態更新:知識庫可以隨時更新,模型能夠利用最新資訊。
(c) 複雜性增加:需要維護外部知識庫和高效率且正確的搜尋機制。
(d)搜尋機制的好壞,是成敗的關鍵。
(e)採用關鍵字搜尋較好
(f) Embedding 是黑盒子,比對計算向量空間距離在資料筆數較多時會較慢
應用:
(a) 問答系統:提供基於最新資訊的精確回答。
(b) 對話系統:提高對話內容的相關性和豐富性。
(c) 投資分析系統:搜尋及統整投資標的的資料。
混合學習技術 (Hybrid Learning)
結合全參數微調與上下文學習,應用於繁體中文鸞文解析,克服模型幻覺問題。
未來展望及應用
大型語言模型「混合學習」技術未來可擴展至以下領域:
1. 解經
2. 客服
3. 內容編輯
4. 建築巡檢
5. 解籤
AI 軟硬體需求
硬體需求
• GPU: NVIDIA RTX-6000ADA-48G x 4
• CPU: AMD Ryzen Threadripper PRO 7965WX
• RAM: 512GB ECC R-DIMM
軟體需求
• 平台:MYAI Studio
• 推論成本:約 180 萬新台幣
• 訓練成本:約 40 萬新台幣
軟硬體購買網址: https://www.leaderg.com/tw/evaluate
投影片下載: