chatGPT是由OpenAI開發(fā)的一款人工智能機器人程序,一經(jīng)推出就火遍全球.chatGPT的開發(fā)主要采用RLHF(人類反饋強化學習)技術(shù),訓練分為以下三個階段.
第一階段:訓練監(jiān)督策略模型.對抽取的prompt數(shù)據(jù),人工進行高質(zhì)量的回答,獲?。紁rompt,answer>數(shù)據(jù)對,幫助數(shù)學模型GPT-3.5更好地理解指令.
第二階段:訓練獎勵模型.用上一階段訓練好的數(shù)學模型,生成k個不同的回答,人工標注排名,通過獎勵模型給出不同的數(shù)值,獎勵數(shù)值越高越好.獎勵數(shù)值可以通過最小化下面的交叉熵損失函數(shù)得到:Loss=-n∑i=1yiln?yi,其中yi∈{0,1},?yi∈(0,1),且n∑i=1?yi=1.
第三階段:實驗與強化模型和算法.通過調(diào)整模型的參數(shù),使模型得到最大的獎勵以符合人工的選擇取向.
參考數(shù)據(jù):ln2≈0.693,ln5≈1.609,ln7≈1.946
(1)若已知某單個樣本,其真實分布y=[y1,y2,?,y10]=[0,0,0,0,1,0,0,0,0,0],其預(yù)測近似分布?y=[y1,y2,?,y10]=[0,0.2,0,0,0.7,0,0,0.1,0,0],計算該單個樣本的交叉熵損失函數(shù)Loss值.
(2)絕對值誤差MAE也是一種比較常見的損失函數(shù),現(xiàn)已知某n階變量的絕對值誤差,MAE=1Nn∑i|?yi-yi|,其中|?yi-yi|=|?yi1-yi1|+|?yi2-yi2|+…+|?yin-yin|,N表示變量的階.若已知某個樣本是一個三階變量的數(shù)陣y=y1 y2 y3
=y11,y12,y13 y21,y22,y23 y31,y32,y33
,其真實分布是y=0,0,1 0,1,0 1,0,0
,現(xiàn)已知其預(yù)測分布為?y=a,b,c c,a,b b,c,a
,求證:該變量的絕對值誤差MAE為定值.
(3)在測試chatGPT時,如果輸入問題沒有語法錯誤chatGPT的回答被采納的概率為90%,當出現(xiàn)語法錯誤時,chatGPT的回答被采納的概率為50%.現(xiàn)已知輸入的問題中出現(xiàn)語法錯誤的概率為5%,現(xiàn)已知chatGPT的回答被采納,求該問題的輸入語法沒有錯誤的概率.
L
oss
=
-
n
∑
i
=
1
y
i
ln
?
y
i
y
i
∈
{
0
,
1
}
,
?
y
i
∈
(
0
,
1
)
n
∑
i
=
1
?
y
i
=
1
?
y
=
[
y
1
,
y
2
,
?
,
y
10
]
=
[
0
,
0
.
2
,
0
,
0
,
0
.
7
,
0
,
0
,
0
.
1
,
0
,
0
]
MAE
=
1
N
n
∑
i
|
?
y
i
-
y
i
|
|
?
y
i
-
y
i
|
=
|
?
y
i
1
-
y
i
1
|
+
|
?
y
i
2
-
y
i
2
|
+
…
+
|
?
y
in
-
y
in
|
y
=
y 1 |
y 2 |
y 3 |
=
y 11 , y 12 , y 13 |
y 21 , y 22 , y 23 |
y 31 , y 32 , y 33 |
y
=
0 , 0 , 1 |
0 , 1 , 0 |
1 , 0 , 0 |
?
y
=
a , b , c |
c , a , b |
b , c , a |
【考點】條件概率.
【答案】見試題解答內(nèi)容
【解答】
【點評】
聲明:本試題解析著作權(quán)屬菁優(yōu)網(wǎng)所有,未經(jīng)書面同意,不得復(fù)制發(fā)布。
發(fā)布:2024/6/27 10:35:59組卷:222引用:2難度:0.6
相似題
-
1.某校從學生文藝部7名成員(4男3女)中,挑選2人參加學校舉辦的文藝匯演活動.
(1)求男生甲被選中的概率;
(2)在已知男生甲被選中的條件下,女生乙被選中的概率;
(3)在要求被選中的兩人中必須一男一女的條件下,求女生乙被選中的概率.發(fā)布:2024/12/29 11:30:2組卷:534引用:4難度:0.5 -
2.將兩顆骰子各擲一次,設(shè)事件A為“兩個點數(shù)之和大于8”,B為“至少出現(xiàn)一個5點”,則概率P(A|B)等于( ?。?/h2>
發(fā)布:2025/1/1 11:30:4組卷:18引用:2難度:0.7 -
3.為慶祝建黨100周年,謳歌中華民族實現(xiàn)偉大復(fù)興的奮斗歷程,增進全體黨員干部職工對黨史知識的了解,某單位組織開展黨史知識競賽活動,以支部為單位參加比賽,某支部在5道黨史題中(有3道選擇題和2道填空題),不放回地依次隨機抽取2道題作答,設(shè)事件A為“第1次抽到選擇題”,事件B為“第2次抽到選擇題”,則下列結(jié)論中正確的是( ?。?/h2>
發(fā)布:2024/12/29 11:30:2組卷:689引用:10難度:0.6
相關(guān)試卷