Apache Spark Là Gì

Share:

Ngày nay có rất nhiều hệ thống đang áp dụng Hadoop nhằm phân tích cùng xử lý dữ liệu lớn. Ưu điểm lớn nhất của Hadoop là được dựa trên một quy mô lập trình song song với xử lý dữ liệu lớn là MapReduce, quy mô này được cho phép khả năng tính toán có thể mở rộng, linh hoạt, kĩ năng chịu lỗi, chi phí rẻ. Điều này chất nhận được tăng tốc thời hạn xử lý các dữ liệu lớn nhằm gia hạn tốc độ, sút thời gian chờ đợi khi dữ liệu ngày càng lớn.

Bạn đang đọc: Apache spark là gì

Dù có tương đối nhiều điểm bạo phổi về khả năng giám sát và đo lường song tuy vậy và tài năng chịu lỗi cao dẫu vậy Apache Haddop gồm một điểm yếu là toàn bộ các thao tác đều phải tiến hành trên ổ đĩa cứng vấn đề này đã làm tụt giảm độ giám sát đi gấp các lần.

Để hạn chế và khắc phục được nhược đặc điểm này thì Apache Spark được ra đời. Apache Spark hoàn toàn có thể chạy nhanh hơn 10 lần so với Haddop sinh hoạt trên đĩa cứng cùng 100 lần lúc chạy trên bộ nhớ lưu trữ RAM.

1. Ra mắt về Apache Spark

*

Apache Spark là một trong framework mã nguồn mở giám sát và đo lường cụm, được cách tân và phát triển sơ khởi vào năm 2009 vì chưng AMPLab. Sau này, Spark đã làm được trao mang lại Apache Software Foundation vào năm trước đó và được vạc triển cho tới nay.

Tốc độ xử trí của Spark đạt được do việc đo lường và thống kê được tiến hành cùng thời gian trên những máy không giống nhau. Đồng thời việc tính toán được thực hiện ở bộ nhớ trong (in-memories) giỏi thực hiện trọn vẹn trên RAM.

Spark có thể chấp nhận được xử lý tài liệu theo thời gian thực, vừa nhận tài liệu từ các nguồn không giống nhau đồng thời triển khai ngay việc xử lý trên tài liệu vừa nhận thấy ( Spark Streaming).

Spark ko có hệ thống file của riêng rẽ mình, nó sử dụng khối hệ thống file không giống như: HDFS, Cassandra, S3,…. Spark cung cấp nhiều kiểu dáng định dạng file không giống nhau (text, csv, json…) bên cạnh đó nó hoàn toàn không nhờ vào vào bất cứ một khối hệ thống file nào.

Xem thêm: Service Host Là Gì ? Cách Tắt Service Host Local System Win 10

2. Thành phần của Spark

*

Apache Spark gồm có 5 thành phần thiết yếu : Spark Core, Spark Streaming, Spark SQL, MLlib cùng GraphX, vào đó:

Spark Core là nền tảng cho những thành phần sót lại và các thành phần này ao ước khởi chạy được thì gần như phải trải qua Spark Core vì chưng Spark Core đảm nhận vai trò thực hiện công việc tính toán và xử trí trong bộ nhớ (In-memory computing) bên cạnh đó nó cũng tham chiếu những dữ liệu được lưu trữ tại các hệ thống lưu trữ bên ngoài.

Spark SQL cung ứng một hình dáng data abstraction new (SchemaRDD) nhằm mục đích hỗ trợ cho tất cả kiểu tài liệu có cấu trúc (structured data) và tài liệu nửa cấu tạo (semi-structured data – hay là dữ liệu dữ liệu có cấu trúc nhưng không đồng hóa và cấu trúc của dữ liệu phụ thuộc vào chủ yếu nội dung của tài liệu ấy). Spark SQL hỗ trợ DSL (Domain-specific language) để triển khai các thao tác trên DataFrames bằng ngôn ngữ Scala, Java hoặc Python với nó cũng cung ứng cả ngữ điệu SQL với hình ảnh command-line và ODBC/JDBC server.

Spark Streaming được sử dụng để triển khai việc phân tích stream bằng việc xem stream là những mini-batches cùng thực hiệc chuyên môn RDD transformation so với các dữ liệu mini-batches này. Qua đó cho phép các đoạn code được viết cho xử trí batch rất có thể được tận dụng tối đa lại vào trong việc xử lý stream, khiến cho việc phát triển lambda architecture được dễ dãi hơn. Tuy nhiên điều này lại tạo ra độ trễ trong xử lý dữ liệu (độ trễ chính bằng mini-batch duration) và vì thế nhiều chuyên viên cho rằng Spark Streaming không thực sự là luật pháp xử lý streaming giống hệt như Storm hoặc Flink.

MLlib (Machine Learning Library): MLlib là một nền tảng học máy phân tán bên trên Spark do phong cách xây dựng phân tán dựa trên bộ nhớ. Theo những so sánh benchmark Spark MLlib cấp tốc hơn 9 lần đối với phiên phiên bản chạy trên Hadoop (Apache Mahout).

GrapX: Grapx là gốc rễ xử lý đồ gia dụng thị dựa trên Spark. Nó cung ứng các Api nhằm diễn tảcác giám sát và đo lường trong đồ gia dụng thị bằng cách sử dụng Pregel Api.

3. Những điểm vượt trội của SparkXử lý dữ liệu: Spark xử lý tài liệu theo lô và thời hạn thựcTính tương thích: có thể tích phù hợp với tất cả những nguồn tài liệu và định dạng tệp được hỗ trợ bởi nhiều Hadoop.Hỗ trợ ngôn ngữ: cung ứng Java, Scala, Python với R.Phân tích thời gian thực:Apache Spark có thể xử lý dữ liệu thời gian thực tức là dữ liệu mang đến từ các luồng sự kiện thời hạn thực với tốc độ hàng triệu sự khiếu nại mỗi giây. Ví dụ: Data Twitter ví dụ điển hình hoặc luợt phân chia sẻ, đăng bài xích trên Facebook. Sức mạnh Spark là khả năng xử lý luồng trực tiếp hiệu quả.Apache Spark rất có thể được sử dụng để xử trí phát hiện ăn lận trong khi thực hiện các giao dịch ngân hàng. Đó là bởi vì, tất cả các khoản giao dịch thanh toán trực tuyến đường được tiến hành trong thời gian thực và bọn họ cần hoàn thành giao dịch gian lậu trong khi quá trình thanh toán sẽ diễn ra.Mục tiêu sử dụng:Xử lý dữ liệu nhanh cùng tương tácXử lý thứ thịCông việc lặp đi lặp lạiXử lý thời gian thựcjoining DatasetMachine LearningApache Spark là Framework xúc tiến dữ liệu dựa trên Hadoop HDFS. Apache Spark không thay thế cho Hadoop mà lại nó là 1 trong framework ứng dụng. Apache Spark tuy ra đời sau nhưng được nhiều người nghe biết hơn Apache Hadoop vì khả năng xử lý hàng loạt và thời hạn thực.Những doanh nghiệp thực hiện Apache Spark

Hiện nay, có tương đối nhiều hãng lớn đã dùng Spark cho những sản phẩm của chính mình như Yahoo, ebay, IBM, Cisco…

*

Tổng kết

Với sự vạc triển khỏe khoắn trong vài ba năm quay lại đây của Apache Spark thì thiết kế viên, những nhà khoa học máy vi tính có thêm chính sách hữu hiệu để phục vụ quá trình của mình và người ta sẽ dần dần quên “Hadoop Stack” mà thay thế vào đó sẽ là “Big data Stack”, với rất nhiều sự tuyển lựa hơn không chỉ có là Hadoop.

Bài viết liên quan