機(jī)器學(xué)習(xí)+NLP+VR:重塑二手車買(mǎi)車新場(chǎng)景
現(xiàn)階段,多方面的車輛信息已實(shí)現(xiàn)了物理層面上的集成,但在語(yǔ)義內(nèi)容的解析和信息的視覺(jué)呈現(xiàn)上還有待深入研究。用戶需要親自閱讀碰撞、維保、電池報(bào)告來(lái)理解其中的內(nèi)容,報(bào)告內(nèi)容的豐富性、專業(yè)性與可讀性將對(duì)用戶的交易決策產(chǎn)生重要影響。例如,用戶瀏覽APP時(shí)被汽車外觀、內(nèi)飾的照片所吸引,卻可能因不了解汽車車體結(jié)構(gòu)和車況排查標(biāo)準(zhǔn)而無(wú)法準(zhǔn)確理解相應(yīng)的碰撞、維保、電池報(bào)告中所包含的眾多內(nèi)容,最終導(dǎo)致交易轉(zhuǎn)化失敗。
為推動(dòng)車況信息的透明化,汽車之家二手車不斷完善優(yōu)化“車史檔案”,使二手車出險(xiǎn)記錄查得率達(dá)到98%、維保記錄查得率達(dá)到85%,同時(shí)還有天天拍車平臺(tái)開(kāi)展線下檢測(cè)業(yè)務(wù),獲取真實(shí)的車況數(shù)據(jù)完善檔案數(shù)據(jù)。傳統(tǒng)二手車買(mǎi)車場(chǎng)景 VS 數(shù)字化二手車買(mǎi)車場(chǎng)景
通過(guò)利用數(shù)字能力和數(shù)據(jù)資源不斷推動(dòng)車況信息的透明化、標(biāo)準(zhǔn)化,使用戶更易了解車況信息,提高用戶決策效率和線索轉(zhuǎn)化效率。具體來(lái)說(shuō),結(jié)合機(jī)器學(xué)習(xí)、自然語(yǔ)言處理和VR全景等技術(shù),我們重塑了二手車購(gòu)買(mǎi)的業(yè)務(wù)場(chǎng)景,將二手車車源在估值、車史、VR全景展示三個(gè)維度的信息進(jìn)行了集成與融合,以交互式可視化的形式呈現(xiàn)給用戶,使用戶更快捷、直觀、詳盡了解二手車車源的車況和估值,降低用戶的信息搜尋成本和信息理解成本,促進(jìn)用戶做出交易決策。圖1 傳統(tǒng)二手車買(mǎi)車場(chǎng)景和數(shù)字化二手車買(mǎi)車場(chǎng)景對(duì)比如圖1所示,傳統(tǒng)的二手車交易需要用戶在不充分了解車輛信息的情況下與二手車商預(yù)約線下看車,再根據(jù)看車人的經(jīng)驗(yàn)知識(shí)做出主觀的評(píng)斷。而數(shù)字化的二手車買(mǎi)車業(yè)務(wù)則是用戶直接通過(guò)PC、APP從云端獲取標(biāo)準(zhǔn)化的車輛信息,充分了解車輛信息、評(píng)估后再?zèng)Q定是否線下看車,有效提高線下看車的效率。汽車之家二手車在為用戶創(chuàng)造數(shù)字化體驗(yàn)的過(guò)程中,除了促進(jìn)購(gòu)車交易,也提高了買(mǎi)車新模式的商業(yè)增長(zhǎng)。
買(mǎi)車新模式:結(jié)構(gòu)化數(shù)據(jù)+半結(jié)構(gòu)化數(shù)據(jù)+全景數(shù)據(jù)圖2 二手車買(mǎi)車業(yè)務(wù)架構(gòu) 二手車買(mǎi)車業(yè)務(wù)流程架構(gòu)如圖2所示。結(jié)構(gòu)化的數(shù)據(jù)來(lái)自從汽車之家二手車交易平臺(tái)中的二手車的車輛數(shù)據(jù)、交易記錄等數(shù)據(jù)。其中,二手車的車輛數(shù)據(jù)中包括省份、城市、車型、上牌時(shí)間、行駛里程、發(fā)布時(shí)間、過(guò)戶次數(shù)等各種數(shù)據(jù),二手車交易記錄中包括成交價(jià)格、交易類型、檢測(cè)車況等數(shù)據(jù)。這些結(jié)構(gòu)化的數(shù)據(jù)按用于估值模型的訓(xùn)練,預(yù)測(cè)車輛在當(dāng)前及未來(lái)的價(jià)格趨勢(shì)。
半結(jié)構(gòu)化的數(shù)據(jù)是指從第三方獲取的車輛出險(xiǎn)記錄,4S店維修保養(yǎng)記錄、天天拍線下檢測(cè)記錄以及電池?cái)?shù)據(jù)記錄,這些記錄具有多種數(shù)據(jù)類型,需要轉(zhuǎn)化為統(tǒng)一的數(shù)據(jù)格式,解析其中的語(yǔ)義內(nèi)容,抽取結(jié)構(gòu)化的信息。對(duì)于新能源車的電池?cái)?shù)據(jù)經(jīng)過(guò)加工解析生成電池在線檢測(cè)報(bào)告,綜合得出維保、碰撞、電池等多維度的車史報(bào)告。
全景數(shù)據(jù)是指通過(guò)VR外觀相機(jī)和VR內(nèi)飾相機(jī)所拍攝的原始圖像數(shù)據(jù),原始圖像數(shù)據(jù)經(jīng)過(guò)VR拍攝組件生成VR圖片,再通過(guò)APP、H5端的VR播放組件進(jìn)行展示。從非結(jié)構(gòu)化數(shù)據(jù)中抽取出的結(jié)構(gòu)化信息除了形成車史報(bào)告,也可以與VR中圖像進(jìn)行跨模態(tài)的語(yǔ)義對(duì)齊,例如車史報(bào)告中如提到“左前門(mén)碰撞”,則可以在VR展示中提示出左前門(mén)的狀態(tài)異常。估值、車史和VR展示將共同呈現(xiàn)于用戶界面。當(dāng)用戶瀏覽通過(guò)PC、APP瀏覽二手車車源詳情時(shí),可在用戶界面查看車輛估值信息,查詢車史報(bào)告,VR全景看車,從價(jià)值、車況、外觀內(nèi)飾三個(gè)角度來(lái)評(píng)估車輛是否符合需求,決定是否購(gòu)買(mǎi)或留下購(gòu)車線索。
技術(shù)實(shí)現(xiàn)難點(diǎn)估值:車輛的數(shù)據(jù)十分復(fù)雜,通常包括了區(qū)域、車齡、里程數(shù)、車型、車系、外觀、內(nèi)飾、車況等多達(dá)上百維的特征信息,并且這些特征存在著數(shù)據(jù)的部分缺失或特征間多重共線性的復(fù)雜關(guān)系,給二手車價(jià)格的預(yù)測(cè)模型帶來(lái)三大挑戰(zhàn):模型預(yù)測(cè)的準(zhǔn)確率、模型推理的計(jì)算效率、模型的可解釋性。雖然現(xiàn)有的機(jī)器學(xué)習(xí)技術(shù)如神經(jīng)網(wǎng)絡(luò)或梯度提升樹(shù)模型可以端到端地處理復(fù)雜特征,但車輛特征數(shù)據(jù)的復(fù)雜性使得此類方法不適合用于二手車價(jià)格的預(yù)測(cè),已有的二手車估值模型準(zhǔn)確率較低。為解決上述三個(gè)問(wèn)題,本估值模型采用了分而治之的思路,將車源按照省份、城市和車型分組,再將分組后的車源數(shù)據(jù)中與時(shí)間相關(guān)的數(shù)據(jù)進(jìn)行量化處理,根據(jù)相關(guān)性篩選特征,訓(xùn)練多元線性回歸模型。VR全景:現(xiàn)有的VR外觀技術(shù)方案是采用單反相機(jī)+長(zhǎng)焦鏡頭拍攝,在自帶轉(zhuǎn)盤(pán)的影棚內(nèi)進(jìn)行車輛外觀的360°拍攝;或采用單反相機(jī)+魚(yú)眼鏡頭拍攝,車內(nèi)使用單反進(jìn)行4面拍攝,然后采用人工后期處理的方式完成全景360°圖像的生成。缺點(diǎn)在于單反+影棚+轉(zhuǎn)盤(pán)造價(jià)高,條件苛刻,拍攝車輛需要專人負(fù)責(zé)運(yùn)輸,效率低,后期圖像處理繁瑣,產(chǎn)出一輛車的外觀+內(nèi)飾圖片過(guò)程長(zhǎng),對(duì)于人員專業(yè)度要求苛刻。而通過(guò)手機(jī)APP引導(dǎo)拍攝+后期人工處理的方法所得圖像不夠精準(zhǔn),后期人工處理耗時(shí)長(zhǎng)。二手車VR看車全新設(shè)計(jì)研發(fā)了基于模型、車輛輪廓識(shí)別、陀螺儀、磁場(chǎng)傳感器綜合性的對(duì)被攝車輛和場(chǎng)地進(jìn)行計(jì)算,給拍攝者提供便捷的定位拍攝方案。車史檔案:維修保養(yǎng)記錄、碰撞記錄和電池充放電記錄的數(shù)據(jù)也同樣面臨著數(shù)據(jù)維度巨大、數(shù)據(jù)質(zhì)量不一、缺乏規(guī)范化的問(wèn)題。比如維保記錄和碰撞記錄,有著多種形式的數(shù)據(jù)來(lái)源,既有半結(jié)構(gòu)化的記錄表單,也有記錄文檔,甚至還有拍攝或掃描的文檔圖像,需要對(duì)這些數(shù)據(jù)源進(jìn)行加工處理,規(guī)范為統(tǒng)一格式的數(shù)據(jù)形式。在車況信息的抽取過(guò)程中,需要根據(jù)領(lǐng)域?qū)<抑R(shí)明確需要抽取的信息類型,建立車況評(píng)估和電池狀況評(píng)估的知識(shí)模型以及相應(yīng)的標(biāo)準(zhǔn)化術(shù)語(yǔ)詞表,建立車況和電池的評(píng)分、評(píng)級(jí)模型。
實(shí)現(xiàn)方法
- 估值
圖3 估值模型 對(duì)車輛進(jìn)行估價(jià),是二手車交易的重要環(huán)節(jié),在交易過(guò)程中,需要根據(jù)車輛信息對(duì)二手車進(jìn)行評(píng)估定價(jià),獲得較為準(zhǔn)確估價(jià)區(qū)間。目前,我們基于汽車之家的二手車車源數(shù)據(jù)研發(fā)了一種車輛估價(jià)模型,來(lái)滿足商家、用戶對(duì)二手車車源價(jià)格的評(píng)估。
我們的車輛估價(jià)模型主要使用的車源數(shù)據(jù)包括:地理區(qū)域、車型、行駛里程、上牌時(shí)間、發(fā)布車輛時(shí)間等,首選我們需要車源數(shù)據(jù)中提取地理區(qū)域和車型,并按照地理區(qū)域、車型對(duì)車源數(shù)據(jù)中的其他維度數(shù)據(jù)進(jìn)行分組,得到分組數(shù)據(jù),再將分組后的車源數(shù)據(jù)中與時(shí)間相關(guān)的數(shù)據(jù)進(jìn)行量化處理,處理后的各組車源數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),訓(xùn)練多元線性回歸模型,模型定義如下:
其中,Y為估價(jià),θ0為截距,變量t1為上牌時(shí)間,變量t2為行駛里程,變量t3為用戶發(fā)布車輛信息時(shí)間,θ1、θ2、θ3為對(duì)應(yīng)的回歸系數(shù)。
表1 不同地理區(qū)域、不同車型對(duì)應(yīng)估計(jì)模型的截距與回歸系數(shù)構(gòu)建多個(gè)針對(duì)各個(gè)地理區(qū)域下的、不同車型的車輛估價(jià)模型,即每個(gè)省份對(duì)應(yīng)多個(gè)車輛估價(jià)模型,每個(gè)省份、城市、車型下對(duì)應(yīng)一個(gè)車輛估值模型。由于不同省份、車型的車輛價(jià)格存在一定的差異,因此針對(duì)不同地理區(qū)域、車型訓(xùn)練不同的估值模型,可以有效減少預(yù)測(cè)誤差,使模型估計(jì)的準(zhǔn)確性更高。得到針對(duì)各個(gè)地理區(qū)域下的、不同車型的截距與回歸系數(shù)。
圖4 根據(jù)信息預(yù)測(cè)估值&歷史成交和建議因此,本估值模型本質(zhì)上是一個(gè)集成模型,頂層是按省份、城市和車型進(jìn)行的分類模型,底層是對(duì)應(yīng)類別的多個(gè)預(yù)測(cè)模型。當(dāng)利用訓(xùn)練得到的車輛估價(jià)模型進(jìn)行估價(jià)時(shí),首先根據(jù)從客戶端獲取的地理區(qū)域、車型,選擇與地理區(qū)域、車型相對(duì)應(yīng)的車輛估價(jià)模型,再將從客戶端獲取的上牌時(shí)間、用戶發(fā)布車輛信息時(shí)間、行駛里程輸入以選取的模型,模型輸出對(duì)應(yīng)的高準(zhǔn)確性的車輛估價(jià)。
- VR全景
在VR技術(shù)逐漸普及,可為用戶提供新穎的內(nèi)容展現(xiàn)形式的背景下。因二手車一車一況,通過(guò)VR技術(shù)采集商家各輛車的內(nèi)外圖像數(shù)據(jù),隨車輛信息發(fā)布以后,可為用戶提供更加直觀、真實(shí)的車輛狀況展示,線上車源360°展現(xiàn),外觀、內(nèi)飾無(wú)死角細(xì)節(jié)瀏覽,提升瀏覽體驗(yàn)。提高用戶決策及線索轉(zhuǎn)化,提升到店轉(zhuǎn)化率 。同時(shí)也為商家提供了高質(zhì)線索和用戶到店率。 圖5 VR全景拍攝技術(shù)流程拍攝方案:載入用戶選擇的對(duì)應(yīng)年代款的車輛模型圖30張,一套360°外觀圖需要拍攝30張不同角度的照片,以車輛為圓心,12°為一個(gè)點(diǎn),進(jìn)行站位點(diǎn)劃分,站位點(diǎn)與模型圖角度進(jìn)行強(qiáng)關(guān)聯(lián),每張圖對(duì)應(yīng)到一個(gè)站位點(diǎn)。使用手機(jī)內(nèi)置陀螺儀+電子羅盤(pán),經(jīng)過(guò)計(jì)算可為拍攝者提供精準(zhǔn)的角度位置信息,供拍攝者參考自身占位是否與模型圖匹配;通過(guò)圖像輪廓實(shí)時(shí)識(shí)別能力,為拍攝者提供精準(zhǔn)的距離指引,免除人工丈量設(shè)置拍攝點(diǎn)位的繁瑣步驟;當(dāng)拍攝者按下拍攝按鈕后,程序?qū)ε臄z的圖片進(jìn)行分析識(shí)別,保留車輛輪廓內(nèi)的車輛清晰圖片,對(duì)輪廓外的背景區(qū)域進(jìn)行20%的高斯模糊圖層生成,并對(duì)邊緣進(jìn)行羽化處理,拼合所有圖層,得到最終的一個(gè)角度的外觀圖。本外觀拍攝方案,簡(jiǎn)化了人工圖像處理步驟,通過(guò)智能識(shí)別算法,全自動(dòng)生成預(yù)期的車輛清晰背景虛化的外觀圖片,極大地簡(jiǎn)化了車輛外觀360°的拍攝流程,10分鐘內(nèi)即可完成外觀和內(nèi)飾拍攝,并直接上傳平臺(tái)展示。圖6 VR全景多平臺(tái)一體化集成方案適配多端拍看一體化技術(shù)方案(手機(jī)App拍攝 + App雙端VR播放組件 + H5VR播放組件): 1. 自研手機(jī)360°VR外觀拍攝App組件;2. 自研集成化內(nèi)飾VR拍攝組件, 支持多品牌VR相機(jī)連接拍攝;3. 自研App原生外觀播放器控件;4. 基于ThreeSixty二次研發(fā)的外觀H5播放器; 5. 基于Kpano的內(nèi)飾360°H5內(nèi)飾播放器。
- 車史檔案
圖7 車史報(bào)告生成圖8 部分車史報(bào)告示例圖9 部分電池報(bào)告示例車輛出險(xiǎn)記錄,4S店維修保養(yǎng)記錄和天天拍線下檢測(cè)記錄數(shù)據(jù)形式多樣,部分圖片數(shù)據(jù)需要先通過(guò)OCR轉(zhuǎn)換為統(tǒng)一的文檔格式,再?gòu)奈臋n中抽取結(jié)構(gòu)化的信息。首先建立車況評(píng)估和電池狀況評(píng)估的知識(shí)模型以及相應(yīng)的標(biāo)準(zhǔn)化術(shù)語(yǔ)詞表,解決了哪些信息需要被抽取,信息彼此之間的關(guān)系是什么,信息該如何利用的問(wèn)題。具體來(lái)說(shuō),NLP模型抽取出時(shí)間信息,里程數(shù)、維修/理賠金額等數(shù)量信息,實(shí)體信息(汽車關(guān)鍵部位,如A柱、B柱等)及相應(yīng)的方位詞(如正前方、前方左側(cè)等)和動(dòng)詞(如切割、鈑金、焊接等),并根據(jù)句法標(biāo)注建立實(shí)體、方位詞和動(dòng)詞之間的關(guān)系,構(gòu)成形如“左-A柱-焊接”的語(yǔ)義短語(yǔ),這樣的語(yǔ)義短語(yǔ)是描述車輛碰撞維修歷史的最小語(yǔ)義單元。由于原始記錄的不規(guī)范或OCR識(shí)別過(guò)程中的誤差,記錄文檔對(duì)汽車關(guān)鍵部位的描述可能不夠準(zhǔn)確或不夠完整,還需要依據(jù)預(yù)先建立的標(biāo)準(zhǔn)關(guān)鍵部位名詞詞表、動(dòng)詞詞表、方位詞詞表進(jìn)行規(guī)范化處理,得到標(biāo)準(zhǔn)化的關(guān)鍵部位名詞、動(dòng)詞,以及相應(yīng)的語(yǔ)義短語(yǔ)。
圖10 車況排查分類的知識(shí)模型 & 圖11:車史報(bào)告與VR圖像的語(yǔ)義對(duì)齊根據(jù)檢測(cè)部位和事件類型,將車況排查分為骨架排查、加強(qiáng)件排查、水泡排查、火燒排查、里程排查、外觀部件、變速箱/發(fā)動(dòng)機(jī)排查、安全氣囊排查8大維度。其中外觀部件的排查信息可以與VR圖像建立語(yǔ)義上的對(duì)齊,進(jìn)而在VR層面進(jìn)行視覺(jué)上的呈現(xiàn)。根據(jù)標(biāo)準(zhǔn)化的關(guān)鍵部位名詞與動(dòng)詞關(guān)系,制定了不同維度的車況評(píng)級(jí)規(guī)則,將抽取出的標(biāo)準(zhǔn)化語(yǔ)義短語(yǔ)映射為“ABCD”四個(gè)等級(jí)評(píng)級(jí),最后綜合8個(gè)維度的評(píng)級(jí)和車輛的出險(xiǎn)記錄、理賠金額、新車指導(dǎo)價(jià)格等信息對(duì)車況做出綜合的評(píng)估,分為“優(yōu)、良、中、差”四個(gè)等級(jí)。從抽取的語(yǔ)義短語(yǔ)、事件和數(shù)量信息生成車輛的碰撞歷史明細(xì)、維修保養(yǎng)歷史明細(xì)和歷史里程明細(xì)。
隨著新能源汽車市場(chǎng)的迅猛發(fā)展,汽車之家二手車也積累了數(shù)萬(wàn)的新能源車源車主和對(duì)新能源車源有買(mǎi)車欲望的用戶。除了獲取車輛的維保、碰撞、里程車史,新能源車用戶還對(duì)電池性能和電池續(xù)航能力的評(píng)估有著強(qiáng)烈需求。為此,二手車聯(lián)合北理新源,利用新能源車電池大數(shù)據(jù)打造了新能源二手車智能車況云平臺(tái),將電池?cái)?shù)據(jù)進(jìn)行加工處理和評(píng)級(jí),在汽車之家、二手車之家等相關(guān)產(chǎn)品上一鍵生成新能源電池一站式在線檢測(cè)報(bào)告,實(shí)現(xiàn)電池性能實(shí)時(shí)評(píng)估和續(xù)航里程在線檢測(cè)。
電池檢測(cè)報(bào)告記錄了電池出廠數(shù)據(jù),并對(duì)電池評(píng)估數(shù)據(jù)、充放電數(shù)據(jù)、行駛數(shù)據(jù)和異常情況數(shù)據(jù)進(jìn)行綜合排查評(píng)估電池性能,計(jì)算出參考續(xù)航里程。綜合解析以上維度的數(shù)據(jù),構(gòu)建了電池狀況評(píng)分和評(píng)級(jí)模型,預(yù)測(cè)電池性能的評(píng)分并按照評(píng)分劃分為優(yōu)、良、中、差四個(gè)等級(jí)。
結(jié)語(yǔ)
針對(duì)二手車車輛數(shù)據(jù)和視覺(jué)展示進(jìn)行了深度探究,我們建立了標(biāo)準(zhǔn)化的數(shù)據(jù)處理加工流程、方法模型以及可視化展示形式。面對(duì)海量的復(fù)雜的車輛數(shù)據(jù),以分治思想建立估值的集成模型,極大提高了估值的準(zhǔn)確性,使用戶能夠準(zhǔn)確了解當(dāng)前車輛的價(jià)值;建立標(biāo)準(zhǔn)化的車史知識(shí)模型,通過(guò)算法模型和規(guī)則方法將碰撞、維保、電池的信息結(jié)構(gòu)化,特別是新能源車電池在線檢測(cè)報(bào)告,在業(yè)內(nèi)處于創(chuàng)新領(lǐng)導(dǎo)地位。在視覺(jué)展示層面,創(chuàng)新地利用軟件技術(shù)解決了傳統(tǒng)VR技術(shù)過(guò)于依賴硬件和人力導(dǎo)致的成本偏高,時(shí)間偏長(zhǎng)的問(wèn)題,使商家能夠輕松地拍攝360°全景影像,提升購(gòu)車用戶的瀏覽體驗(yàn)。三個(gè)維度的信息經(jīng)過(guò)數(shù)字技術(shù)解析并集成融合,重塑了二手車買(mǎi)車的業(yè)務(wù)數(shù)字化場(chǎng)景。二手車買(mǎi)車業(yè)務(wù)是我們二手車非常關(guān)鍵的業(yè)務(wù)線,在用戶做出交易決策的過(guò)程中,可信且完善的車輛信息以及信息與用戶的交互起到至關(guān)重要的作用。汽車之家二手車的愿景是持續(xù)推動(dòng)業(yè)務(wù)的數(shù)字化轉(zhuǎn)型,打造二手車流通的全數(shù)字化系統(tǒng),實(shí)現(xiàn)非標(biāo)商品標(biāo)準(zhǔn)化,過(guò)程透明化,建立起一套賦能二手車行業(yè)數(shù)字化轉(zhuǎn)型的新模式。
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。