如今,大數據和分析正進入更成熟的部署階段。這對於那些正在部署這些技術的中小型企業來說是一個好消息,他們一直在努力為他們的公司定義一個大數據架構。
關於如何定義大數據和分析的整體架構的不確定性是中小企業在大數據和分析部署方面落後的原因之一。在許多情況下,對於混合計算、資料集市、主資料庫等趨勢發展情況,以及對安全和治理的控制將如何發揮,他們正在等待和觀望。
最後,將會提供一個大家都可以遵循的新興的最佳實踐資料架構。在這個架構中:雲端運算服務正被用來儲存和處理大數據,而內部部署資料中心用於在企業開發本地資料集市。
以下來仔細看看這個大數據和分析架構背後的原因:
#如果企業規模較小,那麼購買在資料中心並行處理大數據的伺服器叢集是很昂貴的,更不用說僱用或培訓那些知道如何優化、升級和維護並行處理環境的非常昂貴的專業人員了。選擇現場處理和儲存資料的企業也對硬體、軟體和儲存設備進行了大量投資。而採購大數據硬體和軟體,以及將運算處理和儲存外包給雲端,所有這些都將花費大量的費用。
#資料治理(例如,安全性和合規性問題)是企業不願意將所有任務關鍵型資料交付給雲端運算的原因之一,因為這些雲端運算資料的管理更加困難。因此,一旦資料在雲端處理完畢,許多企業選擇將資料遷移到自己的內部資料中心。
許多企業選擇使用他們的資料中心還有另一個原因:專注於開發這些資料的專有應用程式和演算法,因為許多雲端運算提供者的政策是客戶在雲端開發的任何應用程式可能會與其他客戶共享。
透過將應用程式保留在內部部署的資料中心,並開發一個可以將較小的資料集市從中分離出來的本機主資料集,企業可以直接控制其資料和應用程式。
例如,如果企業需要對資料進行匿名化處理,則應該將其實施的過程記錄下來,並與其雲端運算供應商達成一致,因為雲端運算提供者將進行匿名化處理。如果企業想清理自己的數據,其清理的過程也應該向其雲端運算提供者提供詳細的書面說明。例如,企業是否只希望將美國所有州的縮寫進行統一(例如,“Tenn”和“Tennessee”=“TN”)還是要對數據進行其他編輯,以便統一且易於處理?最後,無論企業的業務是運行在雲端運算服務供應商的專用租戶還是多租戶環境中,雲端運算提供者都應該能夠保證企業的資料永遠不會與其他客戶共享。
企業的許多IT部門完全錯過了這個任務。他們只是開始實施大數據項目,卻忘記現有的應用程式開發政策和程序來自交易的應用領域。企業不要犯這個錯。與其相反,企業需要在與大數據互動的可能性較高的領域(如儲存、資料庫管理、應用程式)中修改政策和程序。
在進行基於雲端的災難復原(DR)測試的情況下,企業應該在合約中包含用於記錄和執行災難復原(DR)的規定。災難復原(DR)計劃(側重於事務資料和系統)也應該及時更新,並包括大數據和分析的復原和測試腳本的復原。
以上是中小企業採用混合雲處理大數據的三個最佳實踐的詳細內容。更多資訊請關注PHP中文網其他相關文章!