很多人認為數(shù)據(jù)可視化非常簡單,無非是輸入幾組數(shù)據(jù),生成簡單的條形圖、直線圖等等。然而,這未免有點管中窺豹。其實數(shù)據(jù)可視化大致可分為信息可視化、科學可視化和可視化分析三大類,剛才提到的簡單圖表只是信息可視化中最常見的幾種。一旦數(shù)據(jù)量增大,可視化目標改變,可視化系統(tǒng)的復雜度可能就會超出我們的想象。
本篇文章就來講講數(shù)據(jù)可視化的基本流程。
可視化流程的基本步驟,就好像一個特殊的流水線,主要步驟之間彼此相互作用、相互影響??梢暬鞒痰幕静襟E,用文字表達就是:確定數(shù)據(jù)可視化的主題——數(shù)據(jù)采集——數(shù)據(jù)處理和變換——根據(jù)數(shù)據(jù)關(guān)系可視化映射——可視化呈現(xiàn)。
可視化流程的第一步:確定數(shù)據(jù)可視化的主題,即確定需要可視化的數(shù)據(jù)是圍繞什么主題或者目的來組織的。
在可視化過程中的步驟之中,第一步是相對來說較容易的一步。
業(yè)務運營中的具體場景和遇到的實際問題,公司層面的某個戰(zhàn)略意圖,都是確定數(shù)據(jù)可視化主題的來源和依據(jù)。簡而言之,一個具體問題或某項業(yè)務、戰(zhàn)略目標的提出,其實就可以對應一個數(shù)據(jù)可視化的主題。
比如,銀行分析不同城市用戶的儲蓄率、儲蓄金額,電商平臺進行雙十一的實時交易情況的大屏直播,物流公司分析包裹的流向、承運量和運輸時效,向政府機構(gòu)或投資人展示公司的經(jīng)營現(xiàn)狀等,都可以確定相應的數(shù)據(jù)主題。
可視化流程第二步:數(shù)據(jù)的采集。
俗話說“巧婦難為無米之炊”,數(shù)據(jù)采集的方法和質(zhì)量,很大程度上就決定了數(shù)據(jù)可視化的最終效果。
數(shù)據(jù)采集的分類方法有很多,從數(shù)據(jù)的來源來看,可以分為內(nèi)部數(shù)據(jù)采集和外部數(shù)據(jù)采集。
1.內(nèi)部數(shù)據(jù)采集:
指的是采集企業(yè)內(nèi)部經(jīng)營活動的數(shù)據(jù),通常數(shù)據(jù)來源于業(yè)務數(shù)據(jù)庫,如訂單的交易情況。如果要分析用戶的行為數(shù)據(jù)、APP的使用情況,還需要一部分行為日志數(shù)據(jù),這個時候就需要用「埋點」這種方法來進行APP或Web的數(shù)據(jù)采集。
2.外部數(shù)據(jù)采集:
指的數(shù)通過一些方法獲取企業(yè)外部的一些數(shù)據(jù),具體目的包括,獲取競品的數(shù)據(jù)、獲取官方機構(gòu)官網(wǎng)公布的一些行業(yè)數(shù)據(jù)等。獲取外部數(shù)據(jù),通常采用的數(shù)據(jù)采集方法為「網(wǎng)絡爬蟲」。
以上的兩類數(shù)據(jù)采集方法得來的數(shù)據(jù),都是二手數(shù)據(jù)。通過調(diào)查和實驗采集數(shù)據(jù),屬于一手數(shù)據(jù),在市場調(diào)研和科學研究實驗中比較常用,不在此次探討范圍之內(nèi)。
數(shù)據(jù)可視化第三步:數(shù)據(jù)處理和變換。
數(shù)據(jù)處理和數(shù)據(jù)變換,是進行數(shù)據(jù)可視化的前提條件,包括數(shù)據(jù)預處理和數(shù)據(jù)挖掘兩個過程。
一方面,通過前期的數(shù)據(jù)采集得到的數(shù)據(jù),不可避免的含有噪聲和誤差,數(shù)據(jù)質(zhì)量較低;另一方面,數(shù)據(jù)的特征、模式往往隱藏在海量的數(shù)據(jù)中,需要進一步的數(shù)據(jù)挖掘才能提取出來。
常見的數(shù)據(jù)質(zhì)量問題包括:
1.數(shù)據(jù)收集錯誤,遺漏了數(shù)據(jù)對象,或者包含了本不應包含的其他數(shù)據(jù)對象。
2.數(shù)據(jù)中的離群點,即不同于數(shù)據(jù)集中其他大部分數(shù)據(jù)對象特征的數(shù)據(jù)對象。
3.存在遺漏值,數(shù)據(jù)對象的一個或多個屬性值缺失,導致數(shù)據(jù)收集不全。
4.數(shù)據(jù)不一致,收集到的數(shù)據(jù)明顯不合常理,或者多個屬性值之間互相矛盾。例如,體重是負數(shù),或者所填的郵政編碼和城市之間并沒有對應關(guān)系。
5.重復值的存在,數(shù)據(jù)集中包含完全重復或幾乎重復的數(shù)據(jù)。
正是因為有以上問題的存在,直接拿采集的數(shù)據(jù)進行分析or可視化,得出的結(jié)論往往會誤導用戶做出錯誤的決策。因此,對采集到的原始數(shù)據(jù)進行數(shù)據(jù)清洗和規(guī)范化,是數(shù)據(jù)可視化流程中不可缺少的一環(huán)。
數(shù)據(jù)可視化的顯示空間通常是二維的,比如電腦屏幕、大屏顯示器等,3D圖形繪制技術(shù)解決了在二維平面顯示三維物體的問題。
但是在大數(shù)據(jù)時代,我們所采集到的數(shù)據(jù)通常具有4V特性:Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。如何從高維、海量、多樣化的數(shù)據(jù)中,挖掘有價值的信息來支持決策,除了需要對數(shù)據(jù)進行清洗、去除噪聲之外,還需要依據(jù)業(yè)務目的對數(shù)據(jù)進行二次處理。
常用的數(shù)據(jù)處理方法包括:降維、數(shù)據(jù)聚類和切分、抽樣等統(tǒng)計學和機器學習中的方法。
數(shù)據(jù)可視化第四步:根據(jù)數(shù)據(jù)關(guān)系可視化映射。
對數(shù)據(jù)進行清洗、去噪,并按照業(yè)務目的進行數(shù)據(jù)處理之后,接下來就到了可視化映射環(huán)節(jié)??梢暬成涫钦麄€數(shù)據(jù)可視化流程的核心,是指將處理后的數(shù)據(jù)信息映射成可視化元素的過程。
可視化元素由3部分組成:可視化空間+標記+視覺通道
可視化空間
數(shù)據(jù)可視化的顯示空間,通常是二維。三維物體的可視化,通過圖形繪制技術(shù),解決了在二維平面顯示的問題,如3D環(huán)形圖、3D地圖等。
標記,是數(shù)據(jù)屬性到可視化幾何圖形元素的映射,用來代表數(shù)據(jù)屬性的歸類。
根據(jù)空間自由度的差別,標記可以分為點、線、面、體,分別具有零自由度、一維、二維、三維自由度。如我們常見的散點圖、折線圖、矩形樹圖、三維柱狀圖,分別采用了點、線、面、體這四種不同類型的標記。
視覺通道
數(shù)據(jù)屬性的值到標記的視覺呈現(xiàn)參數(shù)的映射,叫做視覺通道,通常用于展示數(shù)據(jù)屬性的定量信息。
常用的視覺通道包括:標記的位置、大小(長度、面積、體積。。。)、形狀(三角形、圓、立方體。。。)、方向、顏色(色調(diào)、飽和度、亮度、透明度。。。)等。
數(shù)據(jù)可視化第五步:可視化呈現(xiàn)。
這個階段主要包括兩個方面:一是進行可視化布局的設計,二是數(shù)據(jù)圖形化的呈現(xiàn)。
頁面布局
可視化設計的頁面布局,要遵循以下三個原則:
(1)聚焦
設計者應該通過適當?shù)呐虐娌季?,將用戶的注意力集中到可視化結(jié)果中最重要的區(qū)域,從而將重要的數(shù)據(jù)信息凸顯出來,抓住用戶的注意力,提升用戶信息解讀的效率。
?。?)平衡
要合理的利用可視化的設計空間,在確保重要信息位于可視化空間視覺中心的情況下,保證整個頁面的不同元素在空間位置上處于平衡,提升設計美感。
?。?)簡潔
在可視化整體布局中,要突出重點,避免過于復雜或影響數(shù)據(jù)呈現(xiàn)效果的冗余元素。
圖表制作
影響圖表呈現(xiàn)效果的,主要有兩個影響因素,一個是數(shù)據(jù)層面的,一個是非數(shù)據(jù)層面的。
?。?)數(shù)據(jù)層面
若數(shù)據(jù)中存在極端值或過多分類項等,會極大影響可視化的效果呈現(xiàn),如柱形圖中柱形條的高度、氣泡圖中氣泡的大小、餅圖中的分類項太多等。
對于數(shù)據(jù)本身造成的可視化效果不佳的情況,我們是不是就束手無策了呢?當然不是,在以往的可視化過程中,本人雖然也踩了很多坑,但是對于如何解決這類問題也積累了一些經(jīng)驗,下次專題分享。
(2)非數(shù)據(jù)層面
非數(shù)據(jù)層面,但是影響圖表呈現(xiàn)效果的因素,通常在設計過程中就可以解決。
比如圖表的背景顏色、網(wǎng)格線的深淺有無、外邊框等等,這類元素是輔助用戶理解圖表的次要元素,但如果不加處理全部放出,視覺上就不夠聚焦,干擾到你真正想展示的數(shù)據(jù)信息。
因此,對于此類非數(shù)據(jù)層面,但是影響圖表視覺呈現(xiàn)的元素,應該盡量隱藏和弱化。