獨家 | Zero-ETL, ChatGPT以及數(shù)據(jù)工程的未來(2)
它是什么:目前,業(yè)務(wù)利益相關(guān)者需要向數(shù)據(jù)專業(yè)人員表達他們的需求、指標和邏輯,然后數(shù)據(jù)專業(yè)人員將其全部轉(zhuǎn)換為 SQL 查詢甚至儀表板。該過程需要時間,即使數(shù)據(jù)倉庫中已存在所有數(shù)據(jù)也是如此。更不用說在數(shù)據(jù)團隊最喜歡的活動列表中,臨時數(shù)據(jù)請求的排名介于根管和文檔之間。
有一群初創(chuàng)公司旨在利用像 GPT-4 這樣的大型語言模型的力量,通過讓消費者在平滑的界面中“查詢”自然語言中的數(shù)據(jù)來自動化該過程。
至少在我們的新機器人霸主使二進制成為新的官方語言之前
這將從根本上簡化自助式分析過程,并進一步使數(shù)據(jù)大眾化,但考慮到更高級分析的數(shù)據(jù)管道的復(fù)雜性,除了基本的“指標獲取”之外,該問題很難解決。
但是,如果通過將所有原始數(shù)據(jù)填充到一個大表中來簡化這種復(fù)雜性呢?
這是本恩·斯坦西爾(Benn Stancil)提出的想法,他是數(shù)據(jù)領(lǐng)域最優(yōu)秀和有遠見的作家/創(chuàng)始人之一。沒有人比他更能預(yù)見現(xiàn)代數(shù)據(jù)堆棧的消亡。
作為一個概念,它并非那么遙不可及。一些數(shù)據(jù)團隊已經(jīng)開始使用褒貶不一的(one big table, OBT)策略了。
利用大型語言模型似乎可以克服使用OBT的最大挑戰(zhàn)之一,即在發(fā)現(xiàn)和模式識別方面的困難以及其完全缺乏組織性。對于人類來說,為他們的故事提供一個目錄和標記良好的章節(jié)是十分有用的,但人工智能并不在乎。
優(yōu)點:也許可以最終兌現(xiàn)自助式數(shù)據(jù)分析的承諾;快速獲得見解;使數(shù)據(jù)團隊能夠?qū)⒏鄷r間用于釋放數(shù)據(jù)價值和構(gòu)建,減少響應(yīng)即席查詢的時間。
缺點:是否自由過度?數(shù)據(jù)專業(yè)人員熟悉數(shù)據(jù)令人痛苦的怪癖(時區(qū)!什么是“帳戶”?),而在某種程度上,大多數(shù)業(yè)務(wù)利益相關(guān)者對此卻并不熟悉。我們是否受益于代議制而不是直接的數(shù)據(jù)民主?
誰在推動它:Delphi和 GetDot.AI 等超級早期創(chuàng)業(yè)公司。像Narrator這樣的初創(chuàng)公司。更成熟的參與者正在做一些這樣的版本,如Amazon QuickSight,Tableau Ask Data或ThoughtSpot。
實用性和價值釋放潛力:令人耳目一新的是,這不是一項尋找用例的技術(shù)。價值和效率是顯而易見的,但技術(shù)挑戰(zhàn)也是顯而易見的。這一愿景仍在構(gòu)建中,需要更多的時間來制定。也許采用的最大障礙將是所需的基礎(chǔ)設(shè)施中斷,這對于更成熟的組織來說可能風(fēng)險太大。
它是什么:數(shù)據(jù)表是構(gòu)建數(shù)據(jù)產(chǎn)品的數(shù)據(jù)的構(gòu)建基塊。事實上,許多數(shù)據(jù)領(lǐng)導(dǎo)者將生產(chǎn)表視為他們的數(shù)據(jù)產(chǎn)品。但是,要將數(shù)據(jù)表視為產(chǎn)品,需要對許多功能進行分層,包括訪問管理、發(fā)現(xiàn)和數(shù)據(jù)可靠性。
容器化已成為軟件工程中微服務(wù)運動不可或缺的一部分。它們增強了可移植性、基礎(chǔ)架構(gòu)抽象,并最終使組織能夠擴展微服務(wù)。數(shù)據(jù)產(chǎn)品容器概念設(shè)想了數(shù)據(jù)表的類似容器化。
數(shù)據(jù)產(chǎn)品容器可能被證明是使數(shù)據(jù)更加可靠和可治理的有效機制,特別是如果它們可以更好地呈現(xiàn)與數(shù)據(jù)基礎(chǔ)單元關(guān)聯(lián)的語義定義、數(shù)據(jù)沿襲和質(zhì)量指標等信息。
優(yōu)點:數(shù)據(jù)產(chǎn)品容器似乎是更好地打包和執(zhí)行四個數(shù)據(jù)網(wǎng)格原則(聯(lián)合治理、數(shù)據(jù)自助服務(wù)、將數(shù)據(jù)視為產(chǎn)品、域優(yōu)先基礎(chǔ)結(jié)構(gòu))的一種方式。
缺點:這個概念會讓組織更容易還是更難擴展其數(shù)據(jù)產(chǎn)品?對于許多這些未來數(shù)據(jù)趨勢,另一個基本問題是,數(shù)據(jù)管道的副產(chǎn)品(代碼、數(shù)據(jù)、元數(shù)據(jù))是否包含值得數(shù)據(jù)團隊保留的價值?
誰在推動它:Nextdata,由數(shù)據(jù)網(wǎng)格創(chuàng)建者Zhamak Dehgahni創(chuàng)立的創(chuàng)業(yè)公司。Nexla也一直在這個領(lǐng)域發(fā)揮作用。
實用性和價值釋放潛力:雖然Nextdata最近才從隱身中脫穎而出,數(shù)據(jù)產(chǎn)品容器仍在不斷發(fā)展,但許多數(shù)據(jù)團隊已經(jīng)看到了數(shù)據(jù)網(wǎng)格實施的成熟結(jié)果。數(shù)據(jù)表的未來將取決于這些容器的確切形態(tài)和執(zhí)行。
圖片來自Unsplash, zero
為了窺探數(shù)據(jù)的未來,我們需要回顧過去和現(xiàn)在的數(shù)據(jù)。過去、現(xiàn)在、未來——數(shù)據(jù)基礎(chǔ)設(shè)施處于不斷中斷和重生的狀態(tài)(盡管我們可能需要更多的混亂)。
數(shù)據(jù)倉庫的含義與 Bill Inmon 在 1990 年代引入的術(shù)語相比發(fā)生了巨大變化。ETL 管道現(xiàn)在是 ELT 管道。數(shù)據(jù)池不像兩年前那樣無固定的形狀。
隨著現(xiàn)代數(shù)據(jù)堆棧帶來的這些創(chuàng)新,數(shù)據(jù)工程師在決定數(shù)據(jù)如何移動以及數(shù)據(jù)消費者如何訪問數(shù)據(jù)方面仍然發(fā)揮著核心的技術(shù)作用。但有些變化比其他變化更大、更可怕。
Zero-ETL這個術(shù)語似乎很有威脅,因為它(不準確地)暗示了管道的消亡,如果沒有管道,我們需要數(shù)據(jù)工程師嗎?
盡管 ChatGPT 生成代碼的能力背后大肆宣傳,但這個過程仍然掌握在技術(shù)數(shù)據(jù)工程師手中,他們?nèi)匀恍枰獙彶楹驼{(diào)試。大型語言模型的可怕之處在于它們?nèi)绾螐母旧吓で鷶?shù)據(jù)管道或我們與數(shù)據(jù)消費者的關(guān)系(以及如何向他們提供數(shù)據(jù))。
然而,這個未來,如果它成為現(xiàn)實,仍然強烈依賴數(shù)據(jù)工程師。
自古以來一直存在的是數(shù)據(jù)的一般生命周期。它被放出,它被塑造,它被使用,然后它被存檔(最好避免在這里糾纏于我們自己的消亡)。
雖然底層基礎(chǔ)設(shè)施可能會發(fā)生變化,自動化會將時間和注意力轉(zhuǎn)移到右邊或左邊,但在可預(yù)見的未來,人類數(shù)據(jù)工程師將繼續(xù)在從數(shù)據(jù)中提取價值方面發(fā)揮關(guān)鍵作用。
這并不是因為未來的技術(shù)和創(chuàng)新無法簡化當今復(fù)雜的數(shù)據(jù)基礎(chǔ)設(shè)施,而是因為我們對數(shù)據(jù)的需求和使用將繼續(xù)增加復(fù)雜性和規(guī)模。
大數(shù)據(jù)已經(jīng)并且永遠是一個來回擺動的鐘擺。我們在能力上向前飛躍,然后我們同樣迅速地找到一種方法來達到這些邊界,直到需要下一次飛躍。在這個循環(huán)中得到安慰——被需要是件好事。
Shane Murray是這篇文章的合著者。請訂閱以將他的故事發(fā)送到您的收件箱。
對數(shù)據(jù)質(zhì)量的未來感興趣,請聯(lián)系蒙特卡洛團隊!
原文標題:Zero-ETL, ChatGPT, And The Future of Data Engineering原文鏈接:https://towardsdatascience.com/zero-etl-chatgpt-and-the-future-of-data-engineering-71849642ad9c
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。