MYAI168.COM

人工智慧解決方案

人工智慧學習教材

語意分析、自然語言處理(NLP)

應用最新大型語言模型技術解析鸞文奧秘（演講投影片）

摘要

全參數微調屬於長期模糊記憶，容易產生幻覺，就好像閉卷考試，人類回答問題時會突然忘記課本內容、記錯課本內容、亂回答。

上下文學習屬於短期精確記憶，就好像開卷考試，人類回答問題前先開書看一遍相關課本內容，用明確的短期記憶，克服全參數微調長期模糊記憶的問題。

本研究成功開發出混合學習 (Hybrid Learning) 技術，先使用長期模糊記憶的全參數微調：先用pretrain的非監督式學習博覽群文，再用instruct的監督式學習刷題，提高模型的基本能力後，再使用短期精確記憶的上下文學習，克服幻覺問題，應用在難度最高的繁體中文鸞文解析。

作者

• 李明達

• 立達軟體科技創辦人

• 台灣大學兼任副教授

• 台灣科技大學兼任副教授

鸞文介紹

神明駕降在鸞生身上，執鸞筆，在桌上寫出文言文用以傳達神的旨意，是為鸞文。

由於鸞文格式特殊，又以文言文組成，其中常有難度較高的用字，因此，一般信眾難以解讀。

本研究採用最新大型語言模型技術，使用《內壇見聞》及《武德真經》七講的字幕檔案進行訓練，提高AI對於鸞文的理解能力，輔助信眾了解鸞文內容。

最新大型語言模型技術介紹

In-Context Learning：可以帶一張A4紙的開卷考試，適合臨時性任務及高正確性任務，不需要訓練，快速佈署。

LoRA：考前臨時抱佛腳，在資源有限的情況下，實現高效率微調，適用於多任務情境。但會造成模型能力下降，不建議使用。有幻覺問題。

Full Parameter Fine-Tuning：考前認真唸書，當有足夠的訓練運算資源和資料時，追求最快回答速度的選擇。有幻覺問題，需搭配使用In-Context Learning。

RAG：可以帶幾本書的開卷考試，需要「最新知識」的任務，先搜尋再回答，如即時問答、資訊檢索、投資分析。成敗在於搜尋演算法的優劣。

Hybrid: Full Parameter Fine-Tuning 搭配使用In-Context Learning，將幻覺降到最低。

詳細說明

1. In-Context Learning（上下文學習）：無需參數更新，即時回答問題，適合少樣本情境。

概念：

In-Context Learning 是指模型在推理時，直接從給定的輸入文字中學習，不需要更新模型的參數。模型利用輸入文字中的範例和提示，來理解任務並生成相對應的輸出。

用於少量資料，很像人類的開卷考試，在回答問題前先翻書看一下課本內容。

由於是短期記憶，回答精確，不易產生幻覺。理論上可支援128K tokens 長度的上下文，但是實用的長度在 8K tokens以下，對於上下文理解較佳。

一個繁體中文字大約是2個token 長度。也就是說4千個中文字以下的理解能力較好，理解速度也較快。超過4千個中文字會有回答時間較長以及理解能力下降的問題。

特點：

(a) 即時學習，模型能夠在沒有事前訓練的情況下，根據上下文了解回答所需的知識。

(b) 不需要參數更新，也不需要重新訓練或微調模型，節省了訓練時間和計算資源。

(d) 理論上可支援128K tokens 長度的上下文，但是建議使用的長度在 8K tokens以下，對於上下文理解較佳。

應用：

(a) 小樣本學習（Few-Shot Learning）：在提供有限範例的情況下，模型仍能執行新任務。

(b) 零樣本學習（Zero-Shot Learning）：模型在沒有任何範例的情況下，依靠提示完成任務。

2. LoRA（Low-Rank Adaptation）：高效率微調，但會降低模型原有能力，適用資源有限環境。

概念：

LoRA 是一種高效率的模型微調方法，透過在預訓練模型的權重矩陣上添加輔助矩陣，達成對模型的調整。但會降低模型的原有能力，極不推薦使用。

特點：

(a) 參數具高效率：只需要調整少量新增的參數，減少了儲存和計算成本。

(b) 保持模型穩定性：原始模型的權重保持不變，降低了過度擬合的風險。

(d) 會降低模型的原有能力，極不推薦使用。

應用：

(a) 多任務學習：可在不干擾原始模型的情況下，適應多個不同的任務。

(b) 資源有限環境：適用於計算資源有限的使用情境，如行動裝置或嵌入式系統。

3. Full Parameter Fine-Tuning（全參數微調）：針對特定任務重新訓練模型，適用於大量資料情境。

概念：

全參數微調是指在特定任務或資料集上，對模型的所有參數進行重新訓練。很像人類的閉卷考試，透過事先花時間研讀課本產生長期記憶來回答問題，適用於大量資料的訓練，融會貫通。

但是跟人類一樣會有記憶模糊、記錯、及亂回答的幻覺問題。

特點：

(a) 高靈活性：模型能夠深入適應特定任務，可能獲得最佳效能。

(b) 計算成本高：需要大量的計算資源和時間進行訓練。

應用：

(a) 專業領域應用：如醫療、法律、文言文、鸞文、解籤等，需要模型深入理解大量專業知識。

(b) 大型資料集：在有豐富資料支持的情況下，充分發揮模型能力。

4. RAG（Retrieval-Augmented Generation）：結合檢索與生成的方式，適用即時資訊檢索。

概念：

RAG 結合了搜尋和生成兩種機制。

首先，從外部知識庫中搜尋相關的文字片段，然後將這些片段與輸入一起作為上下文，生成最終的回答。很像人類先用搜尋引擎找出最相關的幾筆資料，先瀏覽，再整理回答。建議瀏覽內容越短越好。

理論上可支援128K tokens 長度的上下文，但是實用的長度在 8K tokens以下，對於上下文理解較佳。

一個繁體中文字大約是2個token。也就是說4千個中文字以下的理解能力較好，理解速度也較快。超過4千個中文字會有回答時間較長以及理解能力下降的問題。

特點：

(a) 知識豐富：通過檢索最新的或特定領域的資訊，增強模型的知識庫。

(b) 動態更新：知識庫可以隨時更新，模型能夠利用最新資訊。

(d)搜尋機制的好壞，是成敗的關鍵。

(e)採用關鍵字搜尋較好

(f) Embedding 是黑盒子，比對計算向量空間距離在資料筆數較多時會較慢

應用：

(a) 問答系統：提供基於最新資訊的精確回答。

(b) 對話系統：提高對話內容的相關性和豐富性。

混合學習技術 (Hybrid Learning)

結合全參數微調與上下文學習，應用於繁體中文鸞文解析，克服模型幻覺問題。

未來展望及應用

大型語言模型「混合學習」技術未來可擴展至以下領域：

1. 解經

2. 客服

3. 內容編輯

4. 建築巡檢

5. 解籤

AI 軟硬體需求

硬體需求

• GPU: NVIDIA RTX-6000ADA-48G x 4

• CPU: AMD Ryzen Threadripper PRO 7965WX

• RAM: 512GB ECC R-DIMM

軟體需求

• 平台：MYAI Studio

• 推論成本：約 180 萬新台幣

• 訓練成本：約 40 萬新台幣

軟硬體購買網址： https://www.leaderg.com/tw/evaluate

投影片下載：

聯絡我們、購買方式、客戶服務

請參閱以下網址：

https://tw.myai168.com/article/index?sn=11056

延伸閱讀

MYAI W-70 中階1卡水冷人工智慧GPU工作站

MYAI W-38 高階6卡水冷人工智慧GPU工作站

MYAI W-61 高階6卡人工智慧GPU礦機型工作站

MYAI S-58 高階6卡水冷4U人工智慧GPU伺服器

標籤:

鸞文, AI 解析, 軟硬體需求, 技術介紹, 混合學習, 未來展望, 延伸應用, Hybrid Learning

感謝客戶們的支持

臺灣大學、清華大學、陽明交通大學、成功大學、臺北醫學大學、高雄醫學大學、臺北護理健康大學、中國醫藥大學、國防醫學院、中興大學、中央大學、中山大學、中正大學、政治大學、暨南大學、嘉義大學、宜蘭大學、臺北教育大學、聯合大學、淡江大學、逢甲大學、長庚大學、義守大學、實踐大學、大同大學、中原大學、東吳大學、慈濟大學、慈濟科大、臺科大、北科大、臺中科大、雲林科大、勤益科大、虎尾科大、屏東科大、高雄科大、朝陽科大、明志科大、明新科大、南臺科大、亞東科大、中國科大、體育大學、國防大學、海軍軍官學校、陸軍專科學校、羅東高中、鼓山高中、高雄女中、臺大醫院、成大醫院、榮民總醫院、長庚醫院、慈濟醫院、義大醫院、亞東醫院、聯興國際醫院、中山科學研究院、國防部軍備局、法務部調查局、工研院、資策會、原子能委員會核能研究所、農業委員會特有生物研究保育中心、勞動部勞動研究所、紡織研究所、金屬工業研究發展中心、台灣儀器科技研究中心、車輛測試中心、中華電信、台灣自來水公司、台積電、聯電、南亞科、華邦電子、精材科技、華信光電、友達光電、群創光電、瀚宇彩晶、台塑、台塑石化、台塑網、南亞塑膠、台灣化學纖維、中國石油、羅技電子、義隆電子、隆達電子、達方電子、中磊電子、光紅建聖、鴻海、大聯大、世平興業、盟立自動化、迅得機械、南茂科技、順達科技、致伸科技、英特盛、豐興鋼鐵、中宇環保工程、竹陞科技、研揚科技、敦陽科技、竑騰科技、先豐通訊、神達電腦、神通電腦、百佳泰、科音國際、峰安車業、鴻鵠國際、藍海智慧、凸版蓋特資訊、遠傳電信、精誠軟體服務、酷媽、雄獅旅遊、北港武德宮、西螺福興宮等。

Language

選單

上一篇

延伸閱讀

聯絡我們、購買方式、客戶服務

延伸閱讀

感謝客戶們的支持