產(chǎn)品在上線新功能之前,往往需要先做灰度測試,那么灰度測試的難點在哪里?其中,如何定義灰度測試的標準就是難點之一。這篇文章里,作者結合實戰(zhàn)經(jīng)驗,針對灰度標準如何定這個問題做了解讀,一起來看看吧。
(資料圖片)
我們在上線一個新功能前,如果沒把握,都會做灰度測試,那么灰度測試的難點在哪里呢?
筆者認為如何定灰度測試的標準往往是難點。
一、結合測試目標定灰度標準定標準前,需要先明確灰度測試的目的是什么?
是檢測性能問題,還是想看體驗效果。
比如如果灰度測試的標準是檢測性能問題,那么往往在灰度測試前,都會做壓測(壓力測試),模擬線上的流量環(huán)境,提高灰度測試的準確性。
在灰度之后,如果發(fā)現(xiàn)性能受到較大影響,一般會做回滾(定位到新功能代碼行,下架新代碼,仍然復用老代碼),當然一般開發(fā)都會在新功能代碼行處設置開關,當出現(xiàn)性能問題后,直接關閉開關即可。而做性能檢測的難點在于模擬壓力測試的環(huán)境,壓測的環(huán)境越真實,檢測的標準真實度越高。
而如果是想看體驗效果,例如上線新功能后,想查看新功能用戶的點擊率如何?
此時就涉及到灰度標準的制定。比如小紅書,當你發(fā)布一篇小紅書筆記后,小紅書會先選定100人的范圍,可能涉及到發(fā)布筆記的話題,同城,女性等標準,在100人的范圍內(nèi)點擊數(shù)據(jù)理想,將會繼續(xù)釋放流量到500人范圍,以此類推,當你的筆記獲得更多收藏和贊,會獲得更多流量助推。其實這個本質上也是灰度測試。
二、計算“最小可靠性樣本”,定最佳樣本數(shù)灰度測試的樣本數(shù)應該如何選取呢?大多數(shù)情況下,測試樣本數(shù)是越多越好。但是如果沒有定好方案,那么將會影響最終測試的效果。
這里提供一個灰度測試樣本數(shù)計算網(wǎng)址,使用它便可以快速計算出樣本總數(shù)。
灰度實驗組的人數(shù)為“最小可靠性樣本”。可以通過這個網(wǎng)站來計算合適的人數(shù):Evan’s Awesome A/B Tools。標紅的部分即為最佳樣本數(shù),至于計算原理和使用網(wǎng)站方法,大家可以自行百度,有各類文章可供參考。
三、顆粒度都會從粗到細,多次灰度例如“文心一言”大模型剛面世的時候,篩選了一批用戶優(yōu)先體驗。這其實本質上也是灰度測試,而優(yōu)先獲得文心一言試用機會的,也許是這樣一些標簽:高頻篩選“大模型”用戶、高頻搜素ChatGPT用戶等。那么回到最初的問題,灰度的標準應該如何定呢?
一般灰度測試顆粒度都會從粗到細去制定,顆粒度的制定當然前提是來源于公司是否有該字段數(shù)據(jù)庫的支持。
比如公司主打做旅游市場的汽車租賃服務,根據(jù)前期調(diào)研,發(fā)現(xiàn)疫情后,旅游業(yè)將迎來小高峰,很多自駕游游客都會選擇環(huán)島游,汽車租賃服務必然會非常受歡迎。因此公司計劃在海島附近開設汽車租賃服務。
在平臺開設租賃服務方案后,不確定該租賃服務上線后市場的接受度,需要先選取最小可靠性樣本。可靠性樣本從最開始的粗顆粒度:旅行目的地“海島、”旅行方式“自駕”,先回收一批用戶的測試數(shù)據(jù),再慢慢細化顆粒度,比如旅行天數(shù)(30天內(nèi)、10天內(nèi)、5天內(nèi))、旅行人數(shù)(家庭游、親子游、情侶游)、旅行交通費用(1000、2000、3000)等字段對租賃方案的接受度各自如何。
多次灰度后,分析用戶數(shù)據(jù),哪部分用戶會選擇汽車租賃服務。從而推動租賃方案進一步完善和精準化投放。
而如果在細化顆粒度的過程中,數(shù)據(jù)庫缺少該字段,比如旅行交通費用不在數(shù)據(jù)庫字段中,那么則無法就這一項做為灰度測試的標準。
以上是筆者在實戰(zhàn)中的一點心得,希望能幫助到到家。
本文由 @灰研走B 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉載
題圖來自 Unsplash,基于 CC0 協(xié)議
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。
關鍵詞: