久久国产乱子伦精品免费M,亚洲一区二区三区91,欧美国产在线视频,国产精品视频久久

100個大數(shù)據(jù)名詞和術(shù)語匯總,拿去用吧!

大數(shù)據(jù)的呈現(xiàn)帶來了很多新的術(shù)語,但這些術(shù)語通常對比難以了解。因此,咱們經(jīng)過這篇文章給出一個常用的大數(shù)據(jù)術(shù)語表,拋磚引玉,供我們深化了解,有些定義參考了相應(yīng)的博客文章。

大數(shù)據(jù)術(shù)語

A

  • 聚合 (Aggregation)?– 搜索、合并、顯示數(shù)據(jù)的過程
  • 算法 (Algorithms)?– 可以完成某種數(shù)據(jù)分析的數(shù)學(xué)公式
  • 分析法 (Analytics)?– 用于發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在涵義
  • 異常檢測 (Anomaly detection)?– 在數(shù)據(jù)集中搜索與預(yù)期模式或行為不匹配的數(shù)據(jù)項。除了“Anomalies”,用來表示異常的詞有以下幾種:outliers, exceptions, surprises, contaminants.他們通常可提供關(guān)鍵的可執(zhí)行信息
  • 匿名化 (Anonymization)?– 使數(shù)據(jù)匿名,即移除所有與個人隱私相關(guān)的數(shù)據(jù)
  • 應(yīng)用 (Application)?– 實現(xiàn)某種特定功能的計算機軟件
  • 人工智能 (Artificial Intelligence)?– 研發(fā)智能機器和智能軟件,這些智能設(shè)備能夠感知周遭的環(huán)境,并根據(jù)要求作出相應(yīng)的反應(yīng),甚至能自我學(xué)習(xí)。

B

  • 行為分析法 (Behavioural Analytics)?– 這種分析法是根據(jù)用戶的行為如“怎么做”,“為什么這么做”,以及“做了什么”來得出結(jié)論,而不是僅僅針對人物和時間的一門分析學(xué)科,它著眼于數(shù)據(jù)中的人性化模式
  • 大數(shù)據(jù)科學(xué)家 (Big Data Scientist)?– 能夠設(shè)計大數(shù)據(jù)算法使得大數(shù)據(jù)變得有用的人
  • 大數(shù)據(jù)創(chuàng)業(yè)公司 (Big data startup)?– 指研發(fā)最新大數(shù)據(jù)技術(shù)的新興公司
  • 生物測定術(shù) (Biometrics)?– 根據(jù)個人的特征進行身份識別
  • B字節(jié) (BB: Brontobytes)?– 約等于1000 YB(Yottabytes),相當(dāng)于未來數(shù)字化宇宙的大小。1 B字節(jié)包含了27個0!
  • 商業(yè)智能 (Business Intelligence)?– 是一系列理論、方法學(xué)和過程,使得數(shù)據(jù)更容易被理解

C

  • 分類分析 (Classification analysis)?– 從數(shù)據(jù)中獲得重要的相關(guān)性信息的系統(tǒng)化過程; 這類數(shù)據(jù)也被稱為元數(shù)據(jù)(meta data),是描述數(shù)據(jù)的數(shù)據(jù)
  • 云計算 (Cloud computing)?– 構(gòu)建在網(wǎng)絡(luò)上的分布式計算系統(tǒng),數(shù)據(jù)是存儲于機房外的(即云端)
  • 聚類分析 (Clustering analysis)?– 它是將相似的對象聚合在一起,每類相似的對象組合成一個聚類(也叫作簇)的過程。這種分析方法的目的在于分析數(shù)據(jù)間的差異和相似性
  • 冷數(shù)據(jù)存儲 (Cold data storage)?– 在低功耗服務(wù)器上存儲那些幾乎不被使用的舊數(shù)據(jù)。但這些數(shù)據(jù)檢索起來將會很耗時
  • 對比分析 (Comparative analysis)?– 在非常大的數(shù)據(jù)集中進行模式匹配時,進行一步步的對比和計算過程得到分析結(jié)果
  • 復(fù)雜結(jié)構(gòu)的數(shù)據(jù) (Complex structured data)?– 由兩個或多個復(fù)雜而相互關(guān)聯(lián)部分組成的數(shù)據(jù),這類數(shù)據(jù)不能簡單地由結(jié)構(gòu)化查詢語言或工具(SQL)解析
  • 計算機產(chǎn)生的數(shù)據(jù) (Computer generated data)?– 如日志文件這類由計算機生成的數(shù)據(jù)
  • 并發(fā) (Concurrency)?– 同時執(zhí)行多個任務(wù)或運行多個進程
  • 相關(guān)性分析 (Correlation analysis)?– 是一種數(shù)據(jù)分析方法,用于分析變量之間是否存在正相關(guān),或者負相關(guān)
  • 客戶關(guān)系管理 (CRM: Customer Relationship Management)?– 用于管理銷售、業(yè)務(wù)過程的一種技術(shù),大數(shù)據(jù)將影響公司的客戶關(guān)系管理的策略

D

  • 儀表板 (Dashboard)?– 使用算法分析數(shù)據(jù),并將結(jié)果用圖表方式顯示于儀表板中
  • 數(shù)據(jù)聚合工具 (Data aggregation tools)?– 將分散于眾多數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)化成一個全新數(shù)據(jù)源的過程
  • 數(shù)據(jù)分析師 (Data analyst)?– 從事數(shù)據(jù)分析、建模、清理、處理的專業(yè)人員
  • 數(shù)據(jù)庫 (Database)?– 一個以某種特定的技術(shù)來存儲數(shù)據(jù)集合的倉庫
  • 數(shù)據(jù)庫即服務(wù) (Database-as-a-Service)?– 部署在云端的數(shù)據(jù)庫,即用即付,例如亞馬遜云服務(wù) (AWS: Amazon Web Services)
  • 數(shù)據(jù)庫管理系統(tǒng) (DBMS: Database Management System)?– 收集、存儲數(shù)據(jù),并提供數(shù)據(jù)的訪問
  • 數(shù)據(jù)中心 (Data centre)?– 一個實體地點,放置了用來存儲數(shù)據(jù)的服務(wù)器
  • 數(shù)據(jù)清洗 (Data cleansing)?– 對數(shù)據(jù)進行重新審查和校驗的過程,目的在于刪除重復(fù)信息、糾正存在的錯誤,并提供數(shù)據(jù)一致性
  • 數(shù)據(jù)管理員 (Data custodian)?– 負責(zé)維護數(shù)據(jù)存儲所需技術(shù)環(huán)境的專業(yè)技術(shù)人員
  • 數(shù)據(jù)道德準(zhǔn)則 (Data ethical guidelines)?– 這些準(zhǔn)則有助于組織機構(gòu)使其數(shù)據(jù)透明化,保證數(shù)據(jù)的簡潔、安全及隱私
  • 數(shù)據(jù)訂閱 (Data feed)?– 一種數(shù)據(jù)流,例如Twitter訂閱和RSS
  • 數(shù)據(jù)集市 (Data marketplace)?– 進行數(shù)據(jù)集買賣的在線交易場所
  • 數(shù)據(jù)挖掘 (Data mining)?– 從數(shù)據(jù)集中發(fā)掘特定模式或信息的過程
  • 數(shù)據(jù)建模 (Data modelling)?– 使用數(shù)據(jù)建模技術(shù)來分析數(shù)據(jù)對象,以此洞悉數(shù)據(jù)的內(nèi)在涵義
  • 數(shù)據(jù)集 (Data set)?– 大量數(shù)據(jù)的集合
  • 數(shù)據(jù)虛擬化 (Data virtualization)?– 數(shù)據(jù)整合的過程,以此獲得更多的數(shù)據(jù)信息,這個過程通常會引入其他技術(shù),例如數(shù)據(jù)庫,應(yīng)用程序,文件系統(tǒng),網(wǎng)頁技術(shù),大數(shù)據(jù)技術(shù)等等
  • 去身份識別 (De-identification)?– 也稱為匿名化(anonymization),確保個人不會通過數(shù)據(jù)被識別
  • 判別分析 (Discriminant analysis)?– 將數(shù)據(jù)分類;按不同的分類方式,可將數(shù)據(jù)分配到不同的群組,類別或者目錄。是一種統(tǒng)計分析法,可以對數(shù)據(jù)中某些群組或集群的已知信息進行分析,并從中獲取分類規(guī)則。
  • 分布式文件系統(tǒng) (Distributed File System)?– 提供簡化的,高可用的方式來存儲、分析、處理數(shù)據(jù)的系統(tǒng)
  • 文件存貯數(shù)據(jù)庫 (Document Store Databases)?– 又稱為文檔數(shù)據(jù)庫(document-oriented database), 為存儲、管理、恢復(fù)文檔數(shù)據(jù)而專門設(shè)計的數(shù)據(jù)庫,這類文檔數(shù)據(jù)也稱為半結(jié)構(gòu)化數(shù)據(jù)

E

  • 探索性分析 (Exploratory analysis)?– 在沒有標(biāo)準(zhǔn)的流程或方法的情況下從數(shù)據(jù)中發(fā)掘模式。是一種發(fā)掘數(shù)據(jù)和數(shù)據(jù)集主要特性的一種方法
  • E字節(jié) (EB: Exabytes)?– 約等于1000 PB(petabytes), 約等于1百萬 GB。如今全球每天所制造的新信息量大約為1 EB
  • 提取-轉(zhuǎn)換-加載 (ETL: Extract, Transform and Load)?– 是一種用于數(shù)據(jù)庫或者數(shù)據(jù)倉庫的處理過程,天善學(xué)院有國內(nèi)唯一的最全的 ETL 學(xué)習(xí)課程。即從各種不同的數(shù)據(jù)源提取(E)數(shù)據(jù),并轉(zhuǎn)換(T)成能滿足業(yè)務(wù)需要的數(shù)據(jù),最后將其加載(L)到數(shù)據(jù)庫

F

  • 故障切換 (Failover)?– 當(dāng)系統(tǒng)中某個服務(wù)器發(fā)生故障時,能自動地將運行任務(wù)切換到另一個可用服務(wù)器或節(jié)點上
  • 容錯設(shè)計 (Fault-tolerant design)?– 一個支持容錯設(shè)計的系統(tǒng)應(yīng)該能夠做到當(dāng)某一部分出現(xiàn)故障也能繼續(xù)運行

G

  • 游戲化 (Gamification)?– 在其他非游戲領(lǐng)域中運用游戲的思維和機制,這種方法可以以一種十分友好的方式進行數(shù)據(jù)的創(chuàng)建和偵測,非常有效。
  • 圖形數(shù)據(jù)庫 (Graph Databases)?– 運用圖形結(jié)構(gòu)(例如,一組有限的有序?qū)Γ蛘吣撤N實體)來存儲數(shù)據(jù),這種圖形存儲結(jié)構(gòu)包括邊緣、屬性和節(jié)點。它提供了相鄰節(jié)點間的自由索引功能,也就是說,數(shù)據(jù)庫中每個元素間都與其他相鄰元素直接關(guān)聯(lián)。
  • 網(wǎng)格計算 (Grid computing)?– 將許多分布在不同地點的計算機連接在一起,用以處理某個特定問題,通常是通過云將計算機相連在一起。

H

  • Hadoop?– 一個開源的分布式系統(tǒng)基礎(chǔ)框架,可用于開發(fā)分布式程序,進行大數(shù)據(jù)的運算與存儲。
  • Hadoop 數(shù)據(jù)庫 (HBase)?– 一個開源的、非關(guān)系型、分布式數(shù)據(jù)庫,與Hadoop框架共同使用
  • HDFS?– Hadoop 分布式文件系統(tǒng) (Hadoop Distributed File System);是一個被設(shè)計成適合運行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)
  • 高性能計算 (HPC: High-Performance-Computing)?– 使用超級計算機來解決極其復(fù)雜的計算問題

I

  • 內(nèi)存數(shù)據(jù)庫 (IMDB: In-memory)?– 一種數(shù)據(jù)庫管理系統(tǒng),與普通數(shù)據(jù)庫管理系統(tǒng)不同之處在于,它用主存來存儲數(shù)據(jù),而非硬盤。其特點在于能高速地進行數(shù)據(jù)的處理和存取。
  • 物聯(lián)網(wǎng) (Internet of Things)?– 在普通的設(shè)備中裝上傳感器,使這些設(shè)備能夠在任何時間任何地點與網(wǎng)絡(luò)相連。

J

  • 法律上的數(shù)據(jù)一致性 (Juridical data compliance)?– 當(dāng)你使用的云計算解決方案,將你的數(shù)據(jù)存儲于不同的國家或不同的大陸時,就會與這個概念扯上關(guān)系了。你需要留意這些存儲在不同國家的數(shù)據(jù)是否符合當(dāng)?shù)氐姆伞?/li>

K

  • 鍵值數(shù)據(jù)庫 (KeyValue Databases)?– 數(shù)據(jù)的存儲方式是使用一個特定的鍵,指向一個特定的數(shù)據(jù)記錄,這種方式使得數(shù)據(jù)的查找更加方便快捷。鍵值數(shù)據(jù)庫中所存的數(shù)據(jù)通常為編程語言中基本數(shù)據(jù)類型的數(shù)據(jù)。

L

  • 延遲 (Latency)?– 表示系統(tǒng)時間的延遲
  • 遺留系統(tǒng) (Legacy system)?– 是一種舊的應(yīng)用程序,或是舊的技術(shù),或是舊的計算系統(tǒng),現(xiàn)在已經(jīng)不再支持了。
  • 負載均衡 (Load balancing)?– 將工作量分配到多臺電腦或服務(wù)器上,以獲得最優(yōu)結(jié)果和最大的系統(tǒng)利用率。
  • 位置信息 (Location data)?– GPS信息,即地理位置信息。
  • 日志文件 (Log file)?– 由計算機系統(tǒng)自動生成的文件,記錄系統(tǒng)的運行過程。

M

  • M2M數(shù)據(jù) (Machine2Machine data)?– 兩臺或多臺機器間交流與傳輸?shù)膬?nèi)容
  • 機器數(shù)據(jù) (Machine data)?– 由傳感器或算法在機器上產(chǎn)生的數(shù)據(jù)
  • 機器學(xué)習(xí) (Machine learning)?– 人工智能的一部分,指的是機器能夠從它們所完成的任務(wù)中進行自我學(xué)習(xí),通過長期的累積實現(xiàn)自我改進。
  • MapReduce?– 是處理大規(guī)模數(shù)據(jù)的一種軟件框架(Map: 映射,Reduce: 歸納)。
  • 大規(guī)模并行處理 (MPP: Massively Parallel Processing)?– 同時使用多個處理器(或多臺計算機) 處理同一個計算任務(wù)。
  • 元數(shù)據(jù) (Metadata)?– 被稱為描述數(shù)據(jù)的數(shù)據(jù),即描述數(shù)據(jù)數(shù)據(jù)屬性(數(shù)據(jù)是什么)的信息。
  • MongoDB?– 一種開源的非關(guān)系型數(shù)據(jù)庫(NoSQL database)
  • 多維數(shù)據(jù)庫 (Multi-Dimensional Databases)?– 用于優(yōu)化數(shù)據(jù)聯(lián)機分析處理(OLAP)程序,優(yōu)化數(shù)據(jù)倉庫的一種數(shù)據(jù)庫。
  • 多值數(shù)據(jù)庫 (MultiValue Databases)?– 是一種非關(guān)系型數(shù)據(jù)庫(NoSQL), 一種特殊的多維數(shù)據(jù)庫:能處理3個維度的數(shù)據(jù)。主要針對非常長的字符串,能夠完美地處理HTML和XML中的字串。

N

  • 自然語言處理 (Natural Language Processing)?– 是計算機科學(xué)的一個分支領(lǐng)域,它研究如何實現(xiàn)計算機與人類語言之間的交互。
  • 網(wǎng)絡(luò)分析 (Network analysis)?– 分析網(wǎng)絡(luò)或圖論中節(jié)點間的關(guān)系,即分析網(wǎng)絡(luò)中節(jié)點間的連接和強度關(guān)系。
  • NewSQL?– 一個優(yōu)雅的、定義良好的數(shù)據(jù)庫系統(tǒng),比SQL更易學(xué)習(xí)和使用,比NoSQL更晚提出的新型數(shù)據(jù)庫
  • NoSQL?– 顧名思義,就是“不使用SQL”的數(shù)據(jù)庫。這類數(shù)據(jù)庫泛指傳統(tǒng)關(guān)系型數(shù)據(jù)庫以外的其他類型的數(shù)據(jù)庫。這類數(shù)據(jù)庫有更強的一致性,能處理超大規(guī)模和高并發(fā)的數(shù)據(jù)。

O

  • 對象數(shù)據(jù)庫 (Object Databases)?– (也稱為面象對象數(shù)據(jù)庫)以對象的形式存儲數(shù)據(jù),用于面向?qū)ο缶幊?。它不同于關(guān)系型數(shù)據(jù)庫和圖形數(shù)據(jù)庫,大部分對象數(shù)據(jù)庫都提供一種查詢語言,允許使用聲明式編程(declarative programming)訪問對象.
  • 基于對象圖像分析 (Object-based Image Analysis)?– 數(shù)字圖像分析方法是對每一個像素的數(shù)據(jù)進行分析,而基于對象的圖像分析方法則只分析相關(guān)像素的數(shù)據(jù),這些相關(guān)像素被稱為對象或圖像對象。
  • 操作型數(shù)據(jù)庫 (Operational Databases)?– 這類數(shù)據(jù)庫可以完成一個組織機構(gòu)的常規(guī)操作,對商業(yè)運營非常重要,一般使用在線事務(wù)處理,允許用戶訪問 、收集、檢索公司內(nèi)部的具體信息。
  • 優(yōu)化分析 (Optimization analysis)?– 在產(chǎn)品設(shè)計周期依靠算法來實現(xiàn)的優(yōu)化過程,在這一過程中,公司可以設(shè)計各種各樣的產(chǎn)品并測試這些產(chǎn)品是否滿足預(yù)設(shè)值。
  • 本體論 (Ontology)?– 表示知識本體,用于定義一個領(lǐng)域中的概念集及概念之間的關(guān)系的一種哲學(xué)思想。(譯者注: 數(shù)據(jù)被提高到哲學(xué)的高度,被賦予了世界本體的意義,成為一個獨立的客觀數(shù)據(jù)世界)
  • 異常值檢測 (Outlier detection)?– 異常值是指嚴重偏離一個數(shù)據(jù)集或一個數(shù)據(jù)組合總平均值的對象,該對象與數(shù)據(jù)集中的其他它相去甚遠,因此,異常值的出現(xiàn)意味著系統(tǒng)發(fā)生問題,需要對此另加分析。

P

  • 模式識別 (Pattern Recognition)?– 通過算法來識別數(shù)據(jù)中的模式,并對同一數(shù)據(jù)源中的新數(shù)據(jù)作出預(yù)測
  • P字節(jié) (PB: Petabytes)?– 約等于1000 TB(terabytes), 約等于1百萬 GB (gigabytes)。歐洲核子研究中心(CERN)大型強子對撞機每秒產(chǎn)生的粒子個數(shù)就約為1 PB
  • 平臺即服務(wù) (PaaS: Platform-as-a-Service)?– 為云計算解決方案提供所有必需的基礎(chǔ)平臺的一種服務(wù)
  • 預(yù)測分析 (Predictive analysis)?– 大數(shù)據(jù)分析方法中最有價值的一種分析方法,這種方法有助于預(yù)測個人未來(近期)的行為,例如某人很可能會買某些商品,可能會訪問某些網(wǎng)站,做某些事情或者產(chǎn)生某種行為。通過使用各種不同的數(shù)據(jù)集,例如歷史數(shù)據(jù),事務(wù)數(shù)據(jù),社交數(shù)據(jù),或者客戶的個人信息數(shù)據(jù),來識別風(fēng)險和機遇
  • 隱私 (Privacy)?– 把具有可識別出個人信息的數(shù)據(jù)與其他數(shù)據(jù)分離開,以確保用戶隱私。
  • 公共數(shù)據(jù) (Public data)?– 由公共基金創(chuàng)建的公共信息或公共數(shù)據(jù)集。

Q

  • 數(shù)字化自我 (Quantified Self)?– 使用應(yīng)用程序跟蹤用戶一天的一舉一動,從而更好地理解其相關(guān)的行為
  • 查詢 (Query)?– 查找某個問題答案的相關(guān)信息

R

  • 再識別 (Re-identification)?– 將多個數(shù)據(jù)集合并在一起,從匿名化的數(shù)據(jù)中識別出個人信息
  • 回歸分析 (Regression analysis)?– 確定兩個變量間的依賴關(guān)系。這種方法假設(shè)兩個變量之間存在單向的因果關(guān)系(譯者注:自變量,因變量,二者不可互換)
  • RFID?– 射頻識別; 這種識別技術(shù)使用一種無線非接觸式射頻電磁場傳感器來傳輸數(shù)據(jù)
  • 實時數(shù)據(jù) (Real-time data)?– 指在幾毫秒內(nèi)被創(chuàng)建、處理、存儲、分析并顯示的數(shù)據(jù)
  • 推薦引擎 (Recommendation engine)?– 推薦引擎算法根據(jù)用戶之前的購買行為或其他購買行為向用戶推薦某種產(chǎn)品
  • 路徑分析 (Routing analysis)?– 針對某種運輸方法通過使用多種不同的變量分析從而找到一條最優(yōu)路徑,以達到降低燃料費用,提高效率的目的

S

  • 半結(jié)構(gòu)化數(shù)據(jù) (Semi-structured data)?– 半結(jié)構(gòu)化數(shù)據(jù)并不具有結(jié)構(gòu)化數(shù)據(jù)嚴格的存儲結(jié)構(gòu),但它可以使用標(biāo)簽或其他形式的標(biāo)記方式以保證數(shù)據(jù)的層次結(jié)構(gòu)
  • 情感分析 (Sentiment Analysis)?– 通過算法分析出人們是如何看待某些話題
  • 信號分析 (Signal analysis)?– 指通過度量隨時間或空間變化的物理量來分析產(chǎn)品的性能。特別是使用傳感器數(shù)據(jù)。
  • 相似性搜索 (Similarity searches)?– 在數(shù)據(jù)庫中查詢最相似的對象,這里所說的數(shù)據(jù)對象可以是任意類型的數(shù)據(jù)
  • 仿真分析 (Simulation analysis)?– 仿真是指模擬真實環(huán)境中進程或系統(tǒng)的操作。仿真分析可以在仿真時考慮多種不同的變量,確保產(chǎn)品性能達到最優(yōu)
  • 智能網(wǎng)格 (Smart grid)?– 是指在能源網(wǎng)中使用傳感器實時監(jiān)控其運行狀態(tài),有助于提高效率
  • 軟件即服務(wù) (SaaS: Software-as-a-Service)?– 基于Web的通過瀏覽器使用的一種應(yīng)用軟件
  • 空間分析 (Spatial analysis)?– 空間分析法分析地理信息或拓撲信息這類空間數(shù)據(jù),從中得出分布在地理空間中的數(shù)據(jù)的模式和規(guī)律
  • SQL?– 在關(guān)系型數(shù)據(jù)庫中,用于檢索數(shù)據(jù)的一種編程語言
  • 結(jié)構(gòu)化數(shù)據(jù) (Structured data)?-可以組織成行列結(jié)構(gòu),可識別的數(shù)據(jù)。這類數(shù)據(jù)通常是一條記錄,或者一個文件,或者是被正確標(biāo)記過的數(shù)據(jù)中的某一個字段,并且可以被精確地定位到。

T

  • T字節(jié) (TB: Terabytes)?– 約等于1000 GB(gigabytes)。1 TB容量可以存儲約300小時的高清視頻。
  • 時序分析 (Time series analysis)?– 分析在重復(fù)測量時間里獲得的定義良好的數(shù)據(jù)。分析的數(shù)據(jù)必須是良好定義的,并且要取自相同時間間隔的連續(xù)時間點。
  • 拓撲數(shù)據(jù)分析 (Topological Data Analysis)?– 拓撲數(shù)據(jù)分析主要關(guān)注三點:復(fù)合數(shù)據(jù)模型、集群的識別、以及數(shù)據(jù)的統(tǒng)計學(xué)意義。
  • 交易數(shù)據(jù) (Transactional data)?– 隨時間變化的動態(tài)數(shù)據(jù)
  • 透明性 (Transparency)?– 消費者想要知道他們的數(shù)據(jù)有什么作用、被作何處理,而組織機構(gòu)則把這些信息都透明化了。

U

  • 非結(jié)構(gòu)化數(shù)據(jù) (Un-structured data)?– 非結(jié)構(gòu)化數(shù)據(jù)一般被認為是大量純文本數(shù)據(jù),其中還可能包含日期,數(shù)字和實例。

V

  • 價值 (Value)?– (譯者注:大數(shù)據(jù)4V特點之一) 所有可用的數(shù)據(jù),能為組織機構(gòu)、社會、消費者創(chuàng)造出巨大的價值。這意味著各大企業(yè)及整個產(chǎn)業(yè)都將從大數(shù)據(jù)中獲益。
  • 可變性 (Variability)?– 也就是說,數(shù)據(jù)的含義總是在(快速)變化的。例如,一個詞在相同的推文中可以有完全不同的意思。
  • 多樣 (Variety)?– (譯者注:大數(shù)據(jù)4V特點之一) 數(shù)據(jù)總是以各種不同的形式呈現(xiàn),如結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù),甚至還有復(fù)雜結(jié)構(gòu)化數(shù)據(jù)
  • 高速 (Velocity)?– (譯者注:大數(shù)據(jù)4V特點之一) 在大數(shù)據(jù)時代,數(shù)據(jù)的創(chuàng)建、存儲、分析、虛擬化都要求被高速處理。
  • 真實性 (Veracity)?– 組織機構(gòu)需要確保數(shù)據(jù)的真實性,才能保證數(shù)據(jù)分析的正確性。因此,真實性(Veracity)是指數(shù)據(jù)的正確性。
  • 可視化 (Visualization)?– 只有正確的可視化,原始數(shù)據(jù)才可被投入使用。這里的“可視化”并非普通的圖型或餅圖,可視化指是的復(fù)雜的圖表,圖表中包含大量的數(shù)據(jù)信息,但可以被很容易地理解和閱讀。
  • 大量 (Volume)?– (譯者注:大數(shù)據(jù)4V特點之一) 指數(shù)據(jù)量,范圍從Megabytes至Brontobytes

W

  • 天氣數(shù)據(jù) (Weather data)?– 是一種重要的開放公共數(shù)據(jù)來源,如果與其他數(shù)據(jù)來源合成在一起,可以為相關(guān)組織機構(gòu)提供深入分析的依據(jù)

X

  • XML數(shù)據(jù)庫 (XML Databases)?– XML數(shù)據(jù)庫是一種以XML格式存儲數(shù)據(jù)的數(shù)據(jù)庫。XML數(shù)據(jù)庫通常與面向文檔型數(shù)據(jù)庫相關(guān)聯(lián),開發(fā)人員可以對XML數(shù)據(jù)庫的數(shù)據(jù)進行查詢,導(dǎo)出以及按指定的格式序列化

Y

  • Y字節(jié) (Yottabytes)?– 約等于1000 ZB (Zettabytes), 約等于250萬億張DVD的數(shù)據(jù)容量?,F(xiàn)今,整個數(shù)字化宇宙的數(shù)據(jù)量為1 YB, 并且將每18年翻一番。

Z

  • Z字節(jié) (ZB: Zettabytes)?– 約等于1000 EB (Exabytes), 約等于1百萬 TB。據(jù)預(yù)測,到2016年全球范圍內(nèi)每天網(wǎng)絡(luò)上通過的信息大約能達到1 ZB。

附:存儲容量單位換算表

1 Bit (比特) = Binary Digit

8 Bits = 1 Byte (字節(jié))

1,000 Bytes = 1 Kilobyte

1,000 Kilobytes = 1 Megabyte

1,000 Megabytes = 1 Gigabyte

1,000 Gigabytes = 1 Terabyte

1,000 Terabytes = 1 Petabyte

1,000 Petabytes = 1 Exabyte

1,000 Exabytes = 1 Zettabyte

1,000 Zettabytes = 1 Yottabyte

1,000 Yottabytes = 1 Brontobyte

1,000 Brontobytes = 1 Geopbyte

相關(guān)新聞

歷經(jīng)多年發(fā)展,已成為國內(nèi)好評如潮的Linux云計算運維、SRE、Devops、網(wǎng)絡(luò)安全、云原生、Go、Python開發(fā)專業(yè)人才培訓(xùn)機構(gòu)!

    1. 主站蜘蛛池模板: 星子县| 怀宁县| 清河县| 泸西县| 石林| 钟祥市| 玉田县| 武乡县| 栾城县| 石河子市| 大化| 楚雄市| 海丰县| 岱山县| 元江| 南召县| 桑日县| 双辽市| 获嘉县| 高邑县| 监利县| 九龙坡区| 巨鹿县| 铜陵市| 定南县| 宿松县| 孟州市| 南昌县| 大城县| 华宁县| 漳平市| 新营市| 常德市| 新乐市| 嘉禾县| 五峰| 广汉市| 宽城| 女性| 浦北县| 深水埗区|