chatGPT是由OpenAI開發(fā)的一款人工智能機器人程序，一經(jīng)推出就火遍全球．chatGPT的開發(fā)主要采用RLHF（人類反饋強化學(xué)習(xí)）技術(shù)，訓(xùn)練分為以下三個階段．
第一階段：訓(xùn)練監(jiān)督策略模型．對抽取的prompt數(shù)據(jù)，人工進行高質(zhì)量的回答，獲?。紁rompt,answer＞數(shù)據(jù)對，幫助數(shù)學(xué)模型GPT-3.5更好地理解指令．
第二階段：訓(xùn)練獎勵模型．用上一階段訓(xùn)練好的數(shù)學(xué)模型，生成k個不同的回答，人工標注排名，通過獎勵模型給出不同的數(shù)值，獎勵數(shù)值越高越好．獎勵數(shù)值可以通過最小化下面的交叉熵損失函數(shù)得到：
L
oss
=
-
n
∑
i
=
1
y
i
ln
?
y
i
，其中
y
i
∈
{
0
，
1
}
，
?
y
i
∈
（
0
，
1
）
，且
n
∑
i
=
1
?
y
i
=
1
．
第三階段：實驗與強化模型和算法．通過調(diào)整模型的參數(shù)，使模型得到最大的獎勵以符合人工的選擇取向．
參考數(shù)據(jù)：ln2≈0.693，ln5≈1.609，ln7≈1.946
（1）若已知某單個樣本，其真實分布y=[y₁，y₂，?，y₁₀]=[0，0，0，0，1，0，0，0，0，0]，其預(yù)測近似分布
?
y
=
[
y
1
，
y
2
，
?
，
y
10
]
=
[
0
，
0
.
2
，
0
，
0
，
0
.
7
，
0
，
0
，
0
.
1
，
0
，
0
]
，計算該單個樣本的交叉熵損失函數(shù)Loss值．
（2）絕對值誤差MAE也是一種比較常見的損失函數(shù)，現(xiàn)已知某n階變量的絕對值誤差，
MAE
=
1
N
n
∑
i
|
?
y
i
-
y
i
|
，其中
|
?
y
i
-
y
i
|
=
|
?
y
i
1
-
y
i
1
|
+
|
?
y
i
2
-
y
i
2
|
+
…
+
|
?
y
in
-
y
in
|
，N表示變量的階．若已知某個樣本是一個三階變量的數(shù)陣
y
=
y
1
y
2
y
3
=
y
11
，
y
12
，
y
13
y
21
，
y
22
，
y
23
y
31
，
y
32
，
y
33
，其真實分布是
y
=
0
，
0
，
1
0
，
1
，
0
1
，
0
，
0
，現(xiàn)已知其預(yù)測分布為
?
y
=
a
,
b
,
c
c
,
a
,
b
b
,
c
,
a
，求證：該變量的絕對值誤差MAE為定值．
（3）在測試chatGPT時，如果輸入問題沒有語法錯誤chatGPT的回答被采納的概率為90%，當(dāng)出現(xiàn)語法錯誤時，chatGPT的回答被采納的概率為50%．現(xiàn)已知輸入的問題中出現(xiàn)語法錯誤的概率為5%，現(xiàn)已知chatGPT的回答被采納，求該問題的輸入語法沒有錯誤的概率．

【考點】條件概率．

【答案】見試題解答內(nèi)容

【解答】

【點評】

聲明：本試題解析著作權(quán)屬菁優(yōu)網(wǎng)所有，未經(jīng)書面同意，不得復(fù)制發(fā)布。

發(fā)布：2024/6/27 10:35:59組卷：225引用：2難度：0.6

相似題

相關(guān)試卷

1．將兩顆骰子各擲一次，設(shè)事件A為“兩個點數(shù)之和大于8”，B為“至少出現(xiàn)一個5點”，則概率P（A|B）等于（ ）