亚洲电影一区二区,一级毛片aaaaaa免费看,雏田被鸣人扒开腿狂动漫

LLM大語言模型的定義

大語言模型（英文：Large Language Model，縮寫LLM），也稱大型語言模型，是一種人工智能模型，旨在理解和生成人類語言。它們在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練，可以執(zhí)行廣泛的任務(wù)，包括文本總結(jié)、翻譯、情感分析等等。LLM的特點(diǎn)是規(guī)模龐大，包含數(shù)十億的參數(shù)，幫助它們學(xué)習(xí)語言數(shù)據(jù)中的復(fù)雜模式。這些模型通常基于深度學(xué)習(xí)架構(gòu)，如轉(zhuǎn)化器，這有助于它們在各種NLP任務(wù)上取得令人印象深刻的表現(xiàn)。

LLM到底有多大？

拿 GPT 來說， GPT 其實(shí)出現(xiàn)了好幾代，GPT 3 它有 45 個(gè) Tb 的訓(xùn)練數(shù)據(jù)，那么整個(gè)維基百科里面的數(shù)據(jù)只相當(dāng)于他訓(xùn)練數(shù)據(jù)的 0. 6%。我們在這個(gè)訓(xùn)練的時(shí)候把這個(gè)東西稱作語料，就語言材料，這個(gè)語料的量是可以說是集中到我們?nèi)祟愃姓Z言文明的精華在里面，這是一個(gè)非常非常龐大的一個(gè)數(shù)據(jù)庫。

從量變到質(zhì)變

經(jīng)過這樣的一個(gè)量的學(xué)習(xí)之后，它產(chǎn)生的一些就是做 AI 的這些計(jì)算機(jī)學(xué)家們，他們沒有想到會(huì)有這種變化，無法合理解釋這一現(xiàn)象的產(chǎn)生即——當(dāng)數(shù)據(jù)量超過某個(gè)臨界點(diǎn)時(shí)，模型實(shí)現(xiàn)了顯著的性能提升，并出現(xiàn)了小模型中不存在的能力，比如上下文學(xué)習(xí)（in-context learning）。

這也就催生了兩個(gè)事件：

各大AI巨頭提高訓(xùn)練參數(shù)量以期達(dá)到更好的效果
由于質(zhì)變原因的無法解釋帶來的AI安全性考量

LLM涌現(xiàn)的能力

上下文學(xué)習(xí)。GPT-3 正式引入了上下文學(xué)習(xí)能力：假設(shè)語言模型已經(jīng)提供了自然語言指令和多個(gè)任務(wù)描述，它可以通過完成輸入文本的詞序列來生成測試實(shí)例的預(yù)期輸出，而無需額外的訓(xùn)練或梯度更新。
指令遵循。通過對自然語言描述（即指令）格式化的多任務(wù)數(shù)據(jù)集的混合進(jìn)行微調(diào)，LLM 在微小的任務(wù)上表現(xiàn)良好，這些任務(wù)也以指令的形式所描述。這種能力下，指令調(diào)優(yōu)使 LLM 能夠在不使用顯式樣本的情況下通過理解任務(wù)指令來執(zhí)行新任務(wù)，這可以大大提高泛化能力。
循序漸進(jìn)的推理。對于小語言模型，通常很難解決涉及多個(gè)推理步驟的復(fù)雜任務(wù)，例如數(shù)學(xué)學(xué)科單詞問題。同時(shí)，通過思維鏈推理策略，LLM 可以通過利用涉及中間推理步驟的 prompt 機(jī)制來解決此類任務(wù)得出最終答案。據(jù)推測，這種能力可能是通過代碼訓(xùn)練獲得的。

語言模型歷史

2017谷歌推出 transformer 模型，2018 年的時(shí)候谷歌提出了 Bert 的模型，然后到 GPT 2，從 340 兆到 10 億、15 億，然后到 83 億，然后到 170 億，然后到 GPT3 1750 億的參數(shù)。

最早的是 2017 年出來的，就是我們所了解的那個(gè)GPT， GPT 名字里面有一個(gè)叫做transformer，就是這個(gè) transformer 模型。它是 2017 年出現(xiàn)的，其實(shí)也很早，所以計(jì)算機(jī)領(lǐng)域來說， 2017 年可以歸結(jié)于上一個(gè)時(shí)代的產(chǎn)品。然后 2018 年第一代 GPT 出來，當(dāng)時(shí)還不行，相對來說比較差，性能也不行，然后像一個(gè)玩具一樣。然后 2018 年谷歌又推出了一個(gè)新的模型，叫BERT，但是這些模型都是基于之前谷歌推出的這個(gè) transformer 模型進(jìn)行發(fā)展的。然后到了 2019 年， open AI 除了 GPT 2 也沒有什么特別，就是它沒有辦法來產(chǎn)生一個(gè)語言邏輯流暢通順的一段名詞，你一看就知道這是機(jī)器寫的。

但是到了 2020 年的5月， GPT 3 出來之后，其實(shí)就有了非常大的變化， GPT 3 的性能比 GPT 2 好很多，它的數(shù)參數(shù)的數(shù)量級大概是 GPT 2- 10 倍以上。

LLM的訓(xùn)練方式

訓(xùn)練語言模型需要向其提供大量的文本數(shù)據(jù)，模型利用這些數(shù)據(jù)來學(xué)習(xí)人類語言的結(jié)構(gòu)、語法和語義。這個(gè)過程通常是通過無監(jiān)督學(xué)習(xí)完成的，使用一種叫做自我監(jiān)督學(xué)習(xí)的技術(shù)。在自我監(jiān)督學(xué)習(xí)中，模型通過預(yù)測序列中的下一個(gè)詞或標(biāo)記，為輸入的數(shù)據(jù)生成自己的標(biāo)簽，并給出之前的詞。

訓(xùn)練過程包括兩個(gè)主要步驟：預(yù)訓(xùn)練（pre-training）和微調(diào)（fine-tuning）：

在預(yù)訓(xùn)練階段，模型從一個(gè)巨大的、多樣化的數(shù)據(jù)集中學(xué)習(xí)，通常包含來自不同來源的數(shù)十億詞匯，如網(wǎng)站、書籍和文章。這個(gè)階段允許模型學(xué)習(xí)一般的語言模式和表征。
在微調(diào)階段，模型在與目標(biāo)任務(wù)或領(lǐng)域相關(guān)的更具體、更小的數(shù)據(jù)集上進(jìn)一步訓(xùn)練。這有助于模型微調(diào)其理解，并適應(yīng)任務(wù)的特殊要求。

常見的大語言模型

GPT-3（OpenAI）： Generative Pre-trained Transformer 3（GPT-3）是最著名的LLM之一，擁有1750億個(gè)參數(shù)。該模型在文本生成、翻譯和其他任務(wù)中表現(xiàn)出顯著的性能，在全球范圍內(nèi)引起了熱烈的反響，目前OpenAI已經(jīng)迭代到了GPT-4版本

BERT（谷歌）：Bidirectional Encoder Representations from Transformers（BERT）是另一個(gè)流行的LLM，對NLP研究產(chǎn)生了重大影響。該模型使用雙向方法從一個(gè)詞的左右兩邊捕捉上下文，使得各種任務(wù)的性能提高，如情感分析和命名實(shí)體識(shí)別。

T5（谷歌）：文本到文本轉(zhuǎn)換器（T5）是一個(gè)LLM，該模型將所有的NLP任務(wù)限定為文本到文本問題，簡化了模型適應(yīng)不同任務(wù)的過程。T5在總結(jié)、翻譯和問題回答等任務(wù)中表現(xiàn)出強(qiáng)大的性能。

ERNIE 3.0 文心大模型（百度）：百度推出的大語言模型ERNIE 3.0首次在百億級和千億級預(yù)訓(xùn)練模型中引入大規(guī)模知識(shí)圖譜，提出了海量無監(jiān)督文本與大規(guī)模知識(shí)圖譜的平行預(yù)訓(xùn)練方法。

速石科技AI應(yīng)用

AI應(yīng)用落地是所有研發(fā)環(huán)節(jié)中最后一環(huán)，也是最重要的一環(huán)。在AIGC應(yīng)用百花齊放的這波浪潮中，速石科技作為MLOps平臺(tái)的提供方，同時(shí)也是其使用方。

速石科技已經(jīng)發(fā)布一款行業(yè)知識(shí)庫聊天應(yīng)用Megrez，這款聊天應(yīng)用面向企業(yè)客戶提供大語言模型的私有化部署能力，解決了許多企業(yè)用戶關(guān)注的數(shù)據(jù)安全問題，它也允許用戶自定義行業(yè)知識(shí)庫，實(shí)現(xiàn)領(lǐng)域知識(shí)的問答。

本文轉(zhuǎn)載：https://zhuanlan.zhihu.com/p/622518771

- END -

我們有個(gè)AI研發(fā)云平臺(tái)
集成多種AI應(yīng)用，大量任務(wù)多節(jié)點(diǎn)并行
應(yīng)對短時(shí)間爆發(fā)性需求，連網(wǎng)即用
跑任務(wù)快，原來幾個(gè)月甚至幾年，現(xiàn)在只需幾小時(shí)
5分鐘快速上手，拖拉點(diǎn)選可視化界面，無需代碼
支持高級用戶直接在云端創(chuàng)建集群

掃碼免費(fèi)試用，送200元體驗(yàn)金，入股不虧~