Ngày 4 - học về cơ bản về kiến trúc Big Data

Ngày 4 - học về cơ bản về kiến trúc Big Data

Chu kỳ của Big Data

Cũng giống các ứng dụng liên quan đến cơ sở dữ liệu khác, dự án big data cũng có chu kỳ phát triển của nó. 3Vs đóng vai trò quan trọng trong việc quyết định kiến trúc của dự án big data. Dự án big data cũng có các phase như data capturing, transforming, integrating, analyzing và building actionable reporting.

Các quá trình này trông gần như giống nhau, nhưng do bản chất của dữ liệu, kiến trúc thường là hoàn toàn khác nhau. Dưới đây là vài câu hỏi mà tất cả mọi người nên hỏi trước khi bắt đầu với kiến trúc big data.

Các câu hỏi đặt ra

  •  Tổng số database của bạn bao nhiêu thì là lớn?
  • Yêu cầu của bạn về thời gian trong các báo cáo là gì – thời gian thực (real time), bán thời gian thực (semi real time) hay thời gian thường xuyên (frequent interval)?
  • Tính sẵn sàng của dữ liệu quan trọng như thế nào và kế hoạch khôi phục thảm họa (disaster recovery) là gì?
  •  Kế hoạch bảo mật cho mạng và phần cứng dùng cho dữ liệu là gì?
  •  Nền tảng gì sẽ là động lực đằng sau dữ liệu?

Đây chỉ là những câu hỏi cơ bản, nhưng dựa trên nhu cầu của ứng dụng và kinh doanh, bạn điều chỉnh các câu hỏi. Các câu hỏi này trông khá đơn giản nhưng câu trả lời thì không đơn giản. Khi chúng ta đang nói về cài đặt dữ liệu lớn, có nhiều khía cạnh quan trọng khác phải xem xét khi quyết định kiến trúc.

Các thành phần của kiến trúc Big Data

Hoàn toàn không thể đưa ra giải pháp tối ưu nhất cho bất kỳ giải pháp big data nào trong 1 bài viết duy nhất, tuy nhiên, chúng ta có thể nói về các khối xây dựng cơ bản trong kiến trúc big data.

BigData_Architecture

Hình ảnh trên cho chúng ta cái nhìn tổng quan tốt về cách các thành phần khác nhau trong kiến trúc big data tương tác lẫn nhau. Trong big data, các nguồn dữ liệu khác nhau là 1 phần của kiến trúc do đó extract, transform và integration là 1 trong những lớp quan trọng nhất của kiến trúc. Hầu hết các dữ liệu được lưu trữ trong quan hệ cũng như không quan hệ và các giải pháp data warehousing. Theo nhu cầu kinh doanh, các dữ liệu khác nhau (various) được xử lý và chuyển thành báo cáo trực quan với người dùng. Cũng giống như phần mềm, phần cứng cũng là phần quan trọng nhất của kiến trúc big data. Trong kiến trúc big data, hạ tầng phần cứng vô cùng quan trọng và cần phải cài đặt ngăn chặn lỗi xảy ra, đảm bảo high availability và DR.

NoSQL trong quản lý dữ liệu

NoSQL là 1 thuật ngữ rất nổi tiếng và nó thật sự có ý nghĩa là Not Relational SQL hay Not Only SQL. Điều này là do trong kiến trúc big data, dữ liệu ở định dạng bất kỳ. Để mang tất cả dữ liệu cùng nhau thì công nghệ mối quan hệ là không đủ, do các công cụ mới, kiến trúc và các thuật toán khác được phát minh sẽ nhận tất cả các loại dữ liệu. Những điều này được gọi chung là NoSQL.

Bạn thấy bài viết này như thế nào?: 
Average: 5 (2 votes)
Ảnh của Tommy Tran

Tommy owner Express Magazine

Drupal Developer having 9+ year experience, implementation and having strong knowledge of technical specifications, workflow development. Ability to perform effectively and efficiently in team and individually. Always enthusiastic and interseted to study new technologies

  • Skype ID: tthanhthuy

Tìm kiếm bất động sản

 

Advertisement

 

jobsora

Dich vu khu trung tphcm

Dich vu diet chuot tphcm

Dich vu diet con trung

Quảng Cáo Bài Viết

 
Lỗi hao pin iPhone 4S được Apple khắc phục

Lỗi hao pin iPhone 4S được Apple khắc phục

Apple đã chính thức đưa ra phiên bản iOS 5.0.1 để sửa lỗi hao pin mà người dùng gần đây phàn nàn trên các diễn đàn mạng.

iPad 3 có thể ra mắt vào 7/3

iPad 3 có thể ra mắt vào 7/3

Theo iMore, iPad thế hệ thứ ba có thể được giới thiệu vào ngày 7/3 sắp tới. Mốc thời gian này rất phù hợp với tin đồn trước đó về việc iPad mới ra mắt vào tuần đầu tiên của tháng 3.

4 tính năng Timeline bạn nên biết

4 tính năng Timeline bạn nên biết

Mặc dù không quá nổi bật nhưng những tính năng này rất đáng chú ý, giúp bạn quản lí chặt chẽ hơn trang Timeline lung linh của mình.

Công ty diệt chuột T&C

 

Diet con trung