国产精品99久久久久久小说_黑人精品一区二区|HD中文字幕在线播放,亚洲性视屏,海外最开放的浏览器,一级淫片120分钟试看好

什么是大語言模型(LLM)

LLM大語言模型的定義

大語言模型(英文:Large Language Model,縮寫LLM),也稱大型語言模型,是一種人工智能模型,旨在理解和生成人類語言。它們在大量的文本數據上進行訓練,可以執行廣泛的任務,包括文本總結、翻譯、情感分析等等。LLM的特點是規模龐大,包含數十億的參數,幫助它們學習語言數據中的復雜模式。這些模型通?;谏疃葘W習架構,如轉化器,這有助于它們在各種NLP任務上取得令人印象深刻的表現。

LLM到底有多大?

拿 GPT 來說, GPT 其實出現了好幾代,GPT 3 它有 45 個 Tb 的訓練數據,那么整個維基百科里面的數據只相當于他訓練數據的 0. 6%。我們在這個訓練的時候把這個東西稱作語料,就語言材料,這個語料的量是可以說是集中到我們人類所有語言文明的精華在里面,這是一個非常非常龐大的一個數據庫。

從量變到質變

經過這樣的一個量的學習之后,它產生的一些就是做 AI 的這些計算機學家們,他們沒有想到會有這種變化,無法合理解釋這一現象的產生即——當數據量超過某個臨界點時,模型實現了顯著的性能提升,并出現了小模型中不存在的能力,比如上下文學習(in-context learning)。

這也就催生了兩個事件:

  1. 各大AI巨頭提高訓練參數量以期達到更好的效果
  2. 由于質變原因的無法解釋帶來的AI安全性考量

LLM涌現的能力

  1. 上下文學習。GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。
  2. 指令遵循。通過對自然語言描述(即指令)格式化的多任務數據集的混合進行微調,LLM 在微小的任務上表現良好,這些任務也以指令的形式所描述。這種能力下,指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務,這可以大大提高泛化能力。
  3. 循序漸進的推理。對于小語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學學科單詞問題。同時,通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測,這種能力可能是通過代碼訓練獲得的。

語言模型歷史

2017谷歌推出 transformer 模型,2018 年的時候谷歌提出了 Bert 的模型,然后到 GPT 2,從 340 兆到 10 億 、15 億,然后到 83 億,然后到 170 億,然后到 GPT3 1750 億的參數。

最早的是 2017 年出來的,就是我們所了解的那個GPT, GPT 名字里面有一個叫做transformer,就是這個 transformer 模型。它是 2017 年出現的,其實也很早,所以計算機領域來說, 2017 年可以歸結于上一個時代的產品。然后 2018 年第一代 GPT 出來,當時還不行,相對來說比較差,性能也不行,然后像一個玩具一樣。然后 2018 年谷歌又推出了一個新的模型,叫BERT,但是這些模型都是基于之前谷歌推出的這個 transformer 模型進行發展的。然后到了 2019 年, open AI 除了 GPT 2 也沒有什么特別,就是它沒有辦法來產生一個語言邏輯流暢通順的一段名詞,你一看就知道這是機器寫的。

但是到了 2020 年的5月, GPT 3 出來之后,其實就有了非常大的變化, GPT 3 的性能比 GPT 2 好很多,它的數參數的數量級大概是 GPT 2- 10 倍以上。

LLM的訓練方式

訓練語言模型需要向其提供大量的文本數據,模型利用這些數據來學習人類語言的結構、語法和語義。這個過程通常是通過無監督學習完成的,使用一種叫做自我監督學習的技術。在自我監督學習中,模型通過預測序列中的下一個詞或標記,為輸入的數據生成自己的標簽,并給出之前的詞。

訓練過程包括兩個主要步驟:預訓練(pre-training)和微調(fine-tuning):

  • 在預訓練階段,模型從一個巨大的、多樣化的數據集中學習,通常包含來自不同來源的數十億詞匯,如網站、書籍和文章。這個階段允許模型學習一般的語言模式和表征。
  • 在微調階段,模型在與目標任務或領域相關的更具體、更小的數據集上進一步訓練。這有助于模型微調其理解,并適應任務的特殊要求。

常見的大語言模型

GPT-3(OpenAI): Generative Pre-trained Transformer 3(GPT-3)是最著名的LLM之一,擁有1750億個參數。該模型在文本生成、翻譯和其他任務中表現出顯著的性能,在全球范圍內引起了熱烈的反響,目前OpenAI已經迭代到了GPT-4版本

BERT(谷歌):Bidirectional Encoder Representations from Transformers(BERT)是另一個流行的LLM,對NLP研究產生了重大影響。該模型使用雙向方法從一個詞的左右兩邊捕捉上下文,使得各種任務的性能提高,如情感分析和命名實體識別。

T5(谷歌): 文本到文本轉換器(T5)是一個LLM,該模型將所有的NLP任務限定為文本到文本問題,簡化了模型適應不同任務的過程。T5在總結、翻譯和問題回答等任務中表現出強大的性能。

ERNIE 3.0 文心大模型(百度):百度推出的大語言模型ERNIE 3.0首次在百億級和千億級預訓練模型中引入大規模知識圖譜,提出了海量無監督文本與大規模知識圖譜的平行預訓練方法。

速石科技AI應用

AI應用落地是所有研發環節中最后一環,也是最重要的一環。在AIGC應用百花齊放的這波浪潮中,速石科技作為MLOps平臺的提供方,同時也是其使用方。

速石科技已經發布一款行業知識庫聊天應用Megrez,這款聊天應用面向企業客戶提供大語言模型的私有化部署能力,解決了許多企業用戶關注的數據安全問題,它也允許用戶自定義行業知識庫,實現領域知識的問答。

更多可查看:速石科技應邀出席2023世界人工智能大會,AI研發平臺引人矚目

本文轉載:https://zhuanlan.zhihu.com/p/622518771

- END -


我們有個AI研發云平臺
集成多種AI應用,大量任務多節點并行
應對短時間爆發性需求,連網即用
跑任務快,原來幾個月甚至幾年,現在只需幾小時
5分鐘快速上手,拖拉點選可視化界面,無需代碼
支持高級用戶直接在云端創建集群 

掃碼免費試用,送200元體驗金,入股不虧~

更多電子書歡迎掃碼關注小F(ID:iamfastone)獲取

你也許想了解具體的落地場景:
王者帶飛LeDock!開箱即用&一鍵定位分子庫+全流程自動化,3.5小時完成20萬分子對接
這樣跑COMSOL,是不是就可以發Nature了
Auto-Scale這支仙女棒如何大幅提升Virtuoso仿真效率?

1分鐘告訴你用MOE模擬200000個分子要花多少錢
LS-DYNA求解效率深度測評 │ 六種規模,本地VS云端5種不同硬件配置
揭秘20000個VCS任務背后的“搬桌子”系列故事
155個GPU!多云場景下的Amber自由能計算
怎么把需要45天的突發性Fluent仿真計算縮短到4天之內?

5000核大規模OPC上云,效率提升53倍
提速2920倍!用AutoDock Vina對接2800萬個分子

從4天到1.75小時,如何讓Bladed仿真效率提升55倍?
從30天到17小時,如何讓HSPICE仿真效率提升42倍?


關于為應用定義的云平臺:
當仿真外包成為過氣網紅后…
和28家業界大佬排排坐是一種怎樣的體驗?
這一屆科研計算人趕DDL紅寶書:學生篇

楊洋組織的“太空營救”中, 那2小時到底發生了什么?
一次搞懂速石科技三大產品:FCC、FCC-E、FCP
Ansys最新CAE調研報告找到阻礙仿真效率提升的“元兇”
國內超算發展近40年,終于遇到了一個像樣的對手
幫助CXO解惑上云成本的迷思,看這篇就夠了
花費4小時5500美元,速石科技躋身全球超算TOP500


相關推薦

微信掃一掃

微信掃一掃

微信掃一掃,分享到朋友圈

什么是大語言模型(LLM)
返回頂部

顯示

忘記密碼?

顯示

顯示

獲取驗證碼

Close