博客專欄

EEPW首頁 > 博客 > 獨家 | Zero-ETL, ChatGPT以及數(shù)據(jù)工程的未來(2)

獨家 | Zero-ETL, ChatGPT以及數(shù)據(jù)工程的未來(2)

發(fā)布人:數(shù)據(jù)派THU 時間:2023-07-17 來源:工程師 發(fā)布文章
OBT和大型語言模型

圖片 

圖片


它是什么:目前,業(yè)務(wù)利益相關(guān)者需要向數(shù)據(jù)專業(yè)人員表達他們的需求、指標和邏輯,然后數(shù)據(jù)專業(yè)人員將其全部轉(zhuǎn)換為 SQL 查詢甚至儀表板。該過程需要時間,即使數(shù)據(jù)倉庫中已存在所有數(shù)據(jù)也是如此。更不用說在數(shù)據(jù)團隊最喜歡的活動列表中,臨時數(shù)據(jù)請求的排名介于根管和文檔之間。


有一群初創(chuàng)公司旨在利用像 GPT-4 這樣的大型語言模型的力量,通過讓消費者在平滑的界面中“查詢”自然語言中的數(shù)據(jù)來自動化該過程。


圖片圖片至少在我們的新機器人霸主使二進制成為新的官方語言之前


這將從根本上簡化自助式分析過程,并進一步使數(shù)據(jù)大眾化,但考慮到更高級分析的數(shù)據(jù)管道的復(fù)雜性,除了基本的“指標獲取”之外,該問題很難解決。


但是,如果通過將所有原始數(shù)據(jù)填充到一個大表中來簡化這種復(fù)雜性呢?


這是本恩·斯坦西爾(Benn Stancil)提出的想法,他是數(shù)據(jù)領(lǐng)域最優(yōu)秀和有遠見的作家/創(chuàng)始人之一。沒有人比他更能預(yù)見現(xiàn)代數(shù)據(jù)堆棧的消亡。


作為一個概念,它并非那么遙不可及。一些數(shù)據(jù)團隊已經(jīng)開始使用褒貶不一的(one big table, OBT)策略了。


利用大型語言模型似乎可以克服使用OBT的最大挑戰(zhàn)之一,即在發(fā)現(xiàn)和模式識別方面的困難以及其完全缺乏組織性。對于人類來說,為他們的故事提供一個目錄和標記良好的章節(jié)是十分有用的,但人工智能并不在乎。


優(yōu)點:也許可以最終兌現(xiàn)自助式數(shù)據(jù)分析的承諾;快速獲得見解;使數(shù)據(jù)團隊能夠?qū)⒏鄷r間用于釋放數(shù)據(jù)價值和構(gòu)建,減少響應(yīng)即席查詢的時間。


缺點:是否自由過度?數(shù)據(jù)專業(yè)人員熟悉數(shù)據(jù)令人痛苦的怪癖(時區(qū)!什么是“帳戶”?),而在某種程度上,大多數(shù)業(yè)務(wù)利益相關(guān)者對此卻并不熟悉。我們是否受益于代議制而不是直接的數(shù)據(jù)民主?


誰在推動它:Delphi和 GetDot.AI 等超級早期創(chuàng)業(yè)公司。像Narrator這樣的初創(chuàng)公司。更成熟的參與者正在做一些這樣的版本,如Amazon QuickSight,Tableau Ask Data或ThoughtSpot。


實用性和價值釋放潛力:令人耳目一新的是,這不是一項尋找用例的技術(shù)。價值和效率是顯而易見的,但技術(shù)挑戰(zhàn)也是顯而易見的。這一愿景仍在構(gòu)建中,需要更多的時間來制定。也許采用的最大障礙將是所需的基礎(chǔ)設(shè)施中斷,這對于更成熟的組織來說可能風(fēng)險太大。


數(shù)據(jù)產(chǎn)品容器


它是什么:數(shù)據(jù)表是構(gòu)建數(shù)據(jù)產(chǎn)品的數(shù)據(jù)的構(gòu)建基塊。事實上,許多數(shù)據(jù)領(lǐng)導(dǎo)者將生產(chǎn)表視為他們的數(shù)據(jù)產(chǎn)品。但是,要將數(shù)據(jù)表視為產(chǎn)品,需要對許多功能進行分層,包括訪問管理、發(fā)現(xiàn)和數(shù)據(jù)可靠性。


容器化已成為軟件工程中微服務(wù)運動不可或缺的一部分。它們增強了可移植性、基礎(chǔ)架構(gòu)抽象,并最終使組織能夠擴展微服務(wù)。數(shù)據(jù)產(chǎn)品容器概念設(shè)想了數(shù)據(jù)表的類似容器化。


數(shù)據(jù)產(chǎn)品容器可能被證明是使數(shù)據(jù)更加可靠和可治理的有效機制,特別是如果它們可以更好地呈現(xiàn)與數(shù)據(jù)基礎(chǔ)單元關(guān)聯(lián)的語義定義、數(shù)據(jù)沿襲和質(zhì)量指標等信息。


優(yōu)點:數(shù)據(jù)產(chǎn)品容器似乎是更好地打包和執(zhí)行四個數(shù)據(jù)網(wǎng)格原則(聯(lián)合治理、數(shù)據(jù)自助服務(wù)、將數(shù)據(jù)視為產(chǎn)品、域優(yōu)先基礎(chǔ)結(jié)構(gòu))的一種方式。


缺點:這個概念會讓組織更容易還是更難擴展其數(shù)據(jù)產(chǎn)品?對于許多這些未來數(shù)據(jù)趨勢,另一個基本問題是,數(shù)據(jù)管道的副產(chǎn)品(代碼、數(shù)據(jù)、元數(shù)據(jù))是否包含值得數(shù)據(jù)團隊保留的價值?


誰在推動它:Nextdata,由數(shù)據(jù)網(wǎng)格創(chuàng)建者Zhamak Dehgahni創(chuàng)立的創(chuàng)業(yè)公司。Nexla也一直在這個領(lǐng)域發(fā)揮作用。


實用性和價值釋放潛力:雖然Nextdata最近才從隱身中脫穎而出,數(shù)據(jù)產(chǎn)品容器仍在不斷發(fā)展,但許多數(shù)據(jù)團隊已經(jīng)看到了數(shù)據(jù)網(wǎng)格實施的成熟結(jié)果。數(shù)據(jù)表的未來將取決于這些容器的確切形態(tài)和執(zhí)行。


數(shù)據(jù)生命周期的無盡想象重構(gòu)

圖片 

圖片圖片來自Unsplash, zero

為了窺探數(shù)據(jù)的未來,我們需要回顧過去和現(xiàn)在的數(shù)據(jù)。過去、現(xiàn)在、未來——數(shù)據(jù)基礎(chǔ)設(shè)施處于不斷中斷和重生的狀態(tài)(盡管我們可能需要更多的混亂)。


數(shù)據(jù)倉庫的含義與 Bill Inmon 在 1990 年代引入的術(shù)語相比發(fā)生了巨大變化。ETL 管道現(xiàn)在是 ELT 管道。數(shù)據(jù)池不像兩年前那樣無固定的形狀。


隨著現(xiàn)代數(shù)據(jù)堆棧帶來的這些創(chuàng)新,數(shù)據(jù)工程師在決定數(shù)據(jù)如何移動以及數(shù)據(jù)消費者如何訪問數(shù)據(jù)方面仍然發(fā)揮著核心的技術(shù)作用。但有些變化比其他變化更大、更可怕。


Zero-ETL這個術(shù)語似乎很有威脅,因為它(不準確地)暗示了管道的消亡,如果沒有管道,我們需要數(shù)據(jù)工程師嗎?


盡管 ChatGPT 生成代碼的能力背后大肆宣傳,但這個過程仍然掌握在技術(shù)數(shù)據(jù)工程師手中,他們?nèi)匀恍枰獙彶楹驼{(diào)試。大型語言模型的可怕之處在于它們?nèi)绾螐母旧吓で鷶?shù)據(jù)管道或我們與數(shù)據(jù)消費者的關(guān)系(以及如何向他們提供數(shù)據(jù))。


然而,這個未來,如果它成為現(xiàn)實,仍然強烈依賴數(shù)據(jù)工程師。


自古以來一直存在的是數(shù)據(jù)的一般生命周期。它被放出,它被塑造,它被使用,然后它被存檔(最好避免在這里糾纏于我們自己的消亡)。


雖然底層基礎(chǔ)設(shè)施可能會發(fā)生變化,自動化會將時間和注意力轉(zhuǎn)移到右邊或左邊,但在可預(yù)見的未來,人類數(shù)據(jù)工程師將繼續(xù)在從數(shù)據(jù)中提取價值方面發(fā)揮關(guān)鍵作用。


這并不是因為未來的技術(shù)和創(chuàng)新無法簡化當今復(fù)雜的數(shù)據(jù)基礎(chǔ)設(shè)施,而是因為我們對數(shù)據(jù)的需求和使用將繼續(xù)增加復(fù)雜性和規(guī)模。


大數(shù)據(jù)已經(jīng)并且永遠是一個來回擺動的鐘擺。我們在能力上向前飛躍,然后我們同樣迅速地找到一種方法來達到這些邊界,直到需要下一次飛躍。在這個循環(huán)中得到安慰——被需要是件好事。


Shane Murray是這篇文章的合著者。請訂閱以將他的故事發(fā)送到您的收件箱。

對數(shù)據(jù)質(zhì)量的未來感興趣,請聯(lián)系蒙特卡洛團隊!


原文標題:Zero-ETL, ChatGPT, And The Future of Data Engineering原文鏈接:https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c



*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



關(guān)鍵詞: AI

相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉