豆包MarsCode落地編程助手場景的探索與實戰(zhàn)_第1頁
豆包MarsCode落地編程助手場景的探索與實戰(zhàn)_第2頁
豆包MarsCode落地編程助手場景的探索與實戰(zhàn)_第3頁
豆包MarsCode落地編程助手場景的探索與實戰(zhàn)_第4頁
豆包MarsCode落地編程助手場景的探索與實戰(zhàn)_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

豆包MarsCode

落地編程助手場景的探索實踐源豆包MarsCode

編程助手起豆包MarsCode

的現(xiàn)狀與發(fā)展未來展望01豆包MarsCode

編程助手起源IDE

智能化探索開發(fā)者對

AI

Coding

的訴求豆包MarsCode

的歷程IDE

智能化探索開發(fā)者對

AI

Coding

的訴求豆包MarsCode

的歷程2022

年初代碼智能團隊開始探索

LLM

驅(qū)動的代碼補全產(chǎn)品自研代碼

LLM評測集和自動評測系統(tǒng)構建數(shù)據(jù)鏈路和線上

A/B

測試體系引入基于對話的編程助手更高自動化編程能力引入代碼補全

Pro編輯推薦功能更多....源豆包MarsCode

編程助手起豆包MarsCode

的現(xiàn)狀與發(fā)展未來展望02

豆包MarsCode

的現(xiàn)狀與發(fā)展代碼補全Prompt

工程科學的測評體系代碼補全

Pro概述數(shù)據(jù)構造產(chǎn)品交互代碼補全

-

Prompt

工程代碼補全

-

科學的測評體系代碼補全的采納率不是好指標采納率

=

采納次數(shù)

/

推薦次數(shù)只關注采納率進行優(yōu)化,

容易被誤導不容易拆解分析,

歸納可指標鏈路優(yōu)化路徑更適合作為體驗指標代碼補全

-

科學的測評體系CPO

-

更科學的指標(Codeium)嘗試率:

每當用戶在編輯器中進行操作,比如輸入新字符或刪除一些代碼時,都是

AI

給出補全建議的機會?!竾L試率」指標反映了AI

實際為用戶提供建議的頻率。AI

不進行嘗試可能是由于延遲(如Debounce)或需要根據(jù)上下文情況來決定是否給出補全建議CPO(Characterper

Opportunity)=(嘗試率)

*(反饋率)

*(采納率)

*(每次采納平均

token

數(shù))

*(token

平均字符長度)例子:用戶敲擊了

10

次按鍵,只有其中

6

次觸發(fā)了請求,那么嘗試率是

6/10代碼補全

-

科學的測評體系CPO-

更科學的指標(Codeium)反饋率:

AI

在給出補全建議時是存在延遲的,包括上下文檢索到網(wǎng)絡開銷再到實際模型推理都會引入延遲。如果延遲太高,開發(fā)人員將繼續(xù)在編輯器中執(zhí)行新的操作,觸發(fā)新的推薦機會并使現(xiàn)有推薦機會變得無意義。此外,在推薦完成后,工具可能因各種原因決定不向開發(fā)人員顯示建議:比如置信度不夠高、觸發(fā)了過濾器等。反饋率代表了有多少比例的建議最終被傳遞給開發(fā)人員以獲得人類「反饋」。CPO(Character

perOpportunity)

=(嘗試率)

*(反饋率)

*(采納率)

*(每次采納平均

token

數(shù))

*(token

平均字符長度)例子:插件發(fā)起了

6

次請求,最后只有

3

次被展示,那么反饋率是

3/6代碼補全

-

科學的測評體系CPO

-

更科學的指標(Codeium)采納率:即使補全建議已經(jīng)給到開發(fā)者,他們也可能覺得建議并不完美而拒絕。接受率反映了展示出的建議中有多少被開發(fā)者采納。CPO(Character

perOpportunity)

=(嘗試率)

*(反饋率)

*(采納率)

*(每次采納平均

token

數(shù))

*(token

平均字符長度)如果展示的

3

次推薦,最后只有

1

次被采納,那么采納率是1/3代碼補全

-

科學的測評體系CPO

-

更科學的指標(Codeium)每次采納平均

token

數(shù):在其它條件相同的情況下,較長和較短的代碼推薦所帶來的價值有很大差異。

大型語言模型以

tokens的形式處理輸入并生成輸出,這些

tokens通常是一小段字符,因此每個被采納建議中平均

token

數(shù)反映了每條被采納建議所傳遞出的實際價值CPO(Character

perOpportunity)

=(嘗試率)

*(反饋率)

*(采納率)

*(每次采納平均

token

數(shù))

*(token

平均字符長度)代碼補全

-

科學的測評體系CPO

-

更科學的指標(Codeium)token

的平均字符數(shù):開發(fā)人員看到的是字符而不是

token,不同的大語言模型可以有不同的「分詞器」,因此,如果一個大語言模型的每個

token

生成了更多字符,實際上它會寫出更多代碼,而每個

token

的平均字符數(shù)正好體現(xiàn)了這一點CPO(Character

perOpportunity)

=(嘗試率)

*(反饋率)

*(采納率)

*(每次采納平均

token

數(shù))

*(token

平均字符長度)代碼補全

-

科學的測評體系通過

A/B

快速驗證和迭代模型、Prompt策略代碼補全

Pro

-

預測下一次動作代碼補全

Pro

-

概述舉個例子:打印日志的場景開發(fā)者實現(xiàn)了一個

log

函數(shù),并在

do_something和

do_something_else 兩個函數(shù)中調(diào)用代碼補全

Pro

-

概述接下來我們給

log

函數(shù)增加

sourceMethod

level兩個參數(shù),用于打印日志觸發(fā)時所在的方法及日志級別。這時開發(fā)者需要同時修改

do_something()

和do_something_else

函數(shù)代碼補全

Pro

-

概述為什么不讓

AI

完成修改的操作呢?當我們在

log

函數(shù)增加兩個參數(shù),

自動在do_something和

do_something_else兩個函數(shù)中,將參數(shù)補齊代碼補全

Pro

-

產(chǎn)品交互代碼補全

Pro

-

數(shù)據(jù)構建Git

倉庫中海量的

commit

歷史記錄是個巨大的數(shù)據(jù)寶庫,包含了豐富的用戶編輯行為信息Git

commit

信息中的噪音也是很多的,需要構造一系列的啟發(fā)式規(guī)則,用于提取出有關聯(lián)的修改記錄通過

CT

SFT

模型能夠理解

diff格式數(shù)據(jù)源豆包MarsCode

編程助手起豆包MarsCode

的現(xiàn)狀與發(fā)展未來展望03

未來展望編程助手業(yè)界趨勢觀察產(chǎn)品形態(tài)的展望編程助手業(yè)界趨勢觀察模型指令追隨和語義理解能力更強模型具備代碼編輯能力更長的上下文支持,

K

甚至

M

級別長度更多...產(chǎn)品IDE

原有交互的深度集成,

比如在

Editor

中支持輸入自然語言生成代碼更強的代碼編輯能力,

支持更長、更多代碼片段的修改和應用更多...產(chǎn)品形態(tài)的展望NL2Code

能力與

Editor

深度集成VSCodeJetBrains產(chǎn)品形態(tài)的展望Sketchthe

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論