新聞中心

EEPW首頁 > 智能計算 > 設(shè)計應(yīng)用 > 迎接AIGC:掌握隱空間(一)

迎接AIGC:掌握隱空間(一)

作者:高煥堂(銘傳大學(xué)、長庚大學(xué)教授) 時間:2023-01-17 來源:電子產(chǎn)品世界 收藏


本文引用地址:http://www.butianyuan.cn/article/202301/442695.htm

1   前言

上一期里我們曾經(jīng)談到AI 有3 種型:識別型AI、生成型AI、決策型AI。一般而言,2020 年之前,識別型AI 是主流;而在2020 年之后,生成型AI 和決策型AI 逐漸蔚為主流。尤其是生成型AI 模型,如長江后浪前浪,蒸蒸日上。

因之,本期就來談?wù)勆尚虯I( 例如) 的魅力源頭:(Latent space)。愈擅長于操作向量(Vector),就愈能生成令人驚訝的創(chuàng)作?,F(xiàn)在,我們就來認(rèn)識,建立扎實(shí)的基礎(chǔ),以便順暢迎向新潮流。

2   復(fù)習(xí)AI基礎(chǔ)概念:特征

大家都知道,科學(xué)素養(yǎng)是從“觀察”開始。觀察是認(rèn)識現(xiàn)象( 如事物) 的起點(diǎn),也是智力活動的泉源。觀察的目的主要是為了了解事物外部形態(tài)和特征。包括區(qū)分事物的一般特征(Feature)、發(fā)現(xiàn)事物的內(nèi)在本質(zhì)特征等,并且加以記錄,并對結(jié)果進(jìn)行描述和對比分析,以便提出新問題,進(jìn)行創(chuàng)造性的活動。

簡而言之,人們對于周遭的問題或事件常可由不同的角度來觀察或看出不同的特征。所謂特征,就是一件事物或一群事物,其具有與眾不同的特色或表征。例如,人們在辨別其他人的長相時,常常會觀察對方的臉形、眼神、嘴巴、發(fā)型等特征來區(qū)分和判斷,只要記住對方獨(dú)特的長相特征就可以,不必記憶其他細(xì)節(jié)了。這是人們天賦的觀察和萃取特征的能力。再如,當(dāng)您一大早從家里出門時,常常會先觀察天氣的特征:“烏云密布”,或是“陽光普照”。這也是天賦特征萃取能力的表現(xiàn)。

了解了特征的意義之后,就可以近一步觀察到,特征與特征之間的可能存在有相互之間的關(guān)聯(lián)性,這又稱為:相關(guān)性(Correlation)。例如,當(dāng)我們觀察到天氣呈現(xiàn)了一個特征:高空上烏云密布;這時也常常會發(fā)現(xiàn)另一個特征:低空中蜻蜓紛飛。而且可能還會發(fā)現(xiàn)第3 項特征:快下雨了。

由于您觀察到了這3 項特征:“烏云密布”、“蜻蜓紛飛”和“快下雨了”。您就會趕緊采取行動,例如:趕快去收衣服,以免被淋濕了。所以這3 項特征與您的行動之間,也具有緊密的關(guān)聯(lián)性。

3   以人臉特征為例

剛才提到了,人們在辨別其他人的長相時,常常會觀察對方的臉形、眼神、嘴巴、頭發(fā)的形狀、位置、顏色等特征來區(qū)分和判斷。其中,最簡單的就是找出人臉的臉框(Box) 位置,以及其臉部關(guān)鍵點(diǎn)(Landmark) 的位置,例如眼睛,鼻子,嘴巴等位置坐標(biāo)。例如,有一張圖像,里面有兩張人臉( 圖1)。

1673921140391607.png

圖1

請您按下“萃取臉部關(guān)鍵點(diǎn)”按鈕,這Excel 畫面就會調(diào)用幕后的Python 程序,來萃取各關(guān)鍵點(diǎn)的坐標(biāo)(圖2)。

1673921198442230.png

圖2

圖2 里顯示出兩張臉的臉框和關(guān)鍵點(diǎn)特征。其中,男生臉框的左上角坐標(biāo)為(32, 67),且右下角坐標(biāo)為(78,126)。而女生臉框的左上角坐標(biāo)為(274, 52),且右下角坐標(biāo)為(320, 112)。接著來看看女生的臉部各關(guān)鍵點(diǎn)特征。

第1 點(diǎn):臉部的左邊眼睛坐標(biāo)為(289, 77)。

第2 點(diǎn):右邊眼睛坐標(biāo)為(311, 76)。

第3 點(diǎn):鼻子坐標(biāo)為(301, 90)。

第4 點(diǎn):嘴左角坐標(biāo)為(290, 99)。

第5 點(diǎn):嘴右角坐標(biāo)為(310, 98)。

4   復(fù)習(xí):空間映射的概念

在本專欄的前幾期里,已經(jīng)介紹過空間映射(Space Mapping) 的概念,及其在機(jī)器學(xué)習(xí)的重要功能。請您先復(fù)習(xí)本專欄第3 期的內(nèi)容:《ML( 機(jī)器學(xué)習(xí)):理解空間對映觀念》。在這里,簡單復(fù)習(xí)這項AI( 機(jī)器學(xué)習(xí))的核心概念和技術(shù)。

當(dāng)人類看到自然空間的實(shí)際事物,收集這些事物的特征,提供給AI。而AI 則透過這些( 訓(xùn)練) 數(shù)據(jù)來( 間接) 觀察實(shí)際事物。這些X 數(shù)據(jù)則成為X 空間里的坐標(biāo),來觀察自然空間里實(shí)際事物之間的關(guān)聯(lián)性( 圖3)。

1673921359697911.png

圖3

然后,AI 會很聰明地探索出兩個空間的對映關(guān)系(圖4)。

1673921386674238.png

圖4

人們會在其生活的自然( 實(shí)物) 空間里,對其所感興趣的各項事物,并收集其特征,就成為各筆原始資料(Raw data),各對映到X 空間里的一點(diǎn)。然后再映射( 過濾) 到Y(jié) 空間;還可再從Y 空間映射( 過濾) 到Z 空間。而ML 的魅力就是它很擅長于探索出對映的規(guī)律性。在AI 里,通常會將上述的空間,區(qū)分為兩種:可觀察空間(Observable space) 和隱( 藏) 空間(Latent space)。

5   認(rèn)識可觀察空間

茲舉一個最簡單的范例來說明之。這里有5 只兔和貓,各收集其兩項特征:耳朵長度與尾巴長度。于是總共收集了5 筆原始數(shù)據(jù)(Raw data)?,F(xiàn)在,就來把它們各對映到可觀察空間里的一個點(diǎn),而且兩項特征各對映到一個維度( 軸)。也就是,每一筆數(shù)據(jù)各對映到2 維(2-Dimension) 的坐標(biāo)空間里的一個點(diǎn)( 圖5)。

1673921511636606.png

圖5

由于這個空間的每個維度的意義很明確,人人都可以理解。因此,每一個點(diǎn)所帶的含意,是類類可以理解的。它是人類可以觀察其含意的空間,就稱為:可觀察空間。

同樣地,這里有3 張臉( 即3 筆數(shù)據(jù)),含有其臉框和關(guān)鍵點(diǎn)的坐標(biāo),以及各有14 項特征( 圖6)。

1673921590421437.png

圖6

現(xiàn)在,就來把這3 張臉( 即3 筆數(shù)據(jù)) 各對映到可觀察空間里的一個點(diǎn),而且14 項特征各對映到一個維度( 軸)。也就是, 每一筆數(shù)據(jù)各對映到14 維(14-Dimension) 的坐標(biāo)空間里的一個點(diǎn)( 圖7)。

1673921645493534.png

圖7

由于這個空間的每個維度的意義很明確,人人都可以理解。因此,每一個點(diǎn)所帶的含意,是類類可以理解的。它是人類可以觀察其含意的空間,就稱為:可觀察空間。

6   結(jié)束語

俗語說:從有招到無招。又說:無招勝有招。這里介紹的“可觀察空間”可以說是有招的空間,人類可以理解空間各數(shù)據(jù)的含意。那么相對地,無招的空間就是“隱空間”,它是AI 創(chuàng)造出來的數(shù)據(jù)空間,人類就無法理解其數(shù)據(jù)的真實(shí)含意,所以稱為:隱空間。

由于篇幅的關(guān)系,我們下一期就從有招到無招,將詳細(xì)介紹神秘的隱空間,它是千變?nèi)f化 創(chuàng)作魅力的源頭。

(本文來源于《電子產(chǎn)品世界》雜志2023年1月期)



關(guān)鍵詞: 202301 AIGC 隱空間

評論


相關(guān)推薦

技術(shù)專區(qū)

關(guān)閉