<?xml version="1.0" encoding="UTF-8" ?>
<rss
    version="2.0"
    xmlns:atom="http://www.w3.org/2005/Atom"
    xmlns:content="http://purl.org/rss/1.0/modules/content/"
    xmlns:webfeeds="http://webfeeds.org/rss/1.0"
    xmlns:media="http://search.yahoo.com/mrss/"
    >
    <channel>
        <title>Apache-spark Tag - Viblo</title>
        <link>https://viblo.asia/rss</link>
        <description><![CDATA[Free service for technical knowledge sharing]]></description>
        <atom:link href="https://viblo.asia/rss/tags/apache-spark.rss" rel="self"></atom:link>
                <copyright>Sun* Inc.</copyright>
                                                <webfeeds:logo>https://viblo.asia/logo_full.svg</webfeeds:logo>
        <image>
            <url>https://viblo.asia/logo_full.svg</url>
            <title>Apache-spark Tag - Viblo</title>
            <link>https://viblo.asia/rss</link>
        </image>
                                <language>vi-vn</language>
        <lastBuildDate>2026-04-20T09:51:30+07:00</lastBuildDate>
                <item>
            <title><![CDATA[Chiến Lược Thực Thi Lệnh JOIN Trong Apache Spark]]></title>
                        <link>https://viblo.asia/p/chien-luoc-thuc-thi-lenh-join-trong-apache-spark-yZjJY38XVOE</link>
            <guid isPermaLink="true">https://viblo.asia/p/chien-luoc-thuc-thi-lenh-join-trong-apache-spark-yZjJY38XVOE</guid>
            <description><![CDATA[Lời mở đầu
JOIN là một trong những lệnh cơ bản nhưng đồng thời cũng là quan trọng nhất khi làm việc với dữ liệu bằng SQL. Trong Apache Spark, cụ thể l...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Hiep</dc:creator>
            <pubDate>2024-10-04 23:17:15</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Delta Lake Cơ Bản Với PySpark]]></title>
                        <link>https://viblo.asia/p/delta-lake-co-ban-voi-pyspark-EoW4oaMrLml</link>
            <guid isPermaLink="true">https://viblo.asia/p/delta-lake-co-ban-voi-pyspark-EoW4oaMrLml</guid>
            <description><![CDATA[Source (en): https://karlchris.github.io/data-engineering/projects/delta-spark/

Lời mở đầu

Sau khoảng thời gian dài trong việc quản lý dữ liệu, Data...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Hiep</dc:creator>
            <pubDate>2024-09-09 11:54:44</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Setting Up and Using Spark Operator with Kubernetes]]></title>
                        <link>https://viblo.asia/p/setting-up-and-using-spark-operator-with-kubernetes-gwd43jnKVX9</link>
            <guid isPermaLink="true">https://viblo.asia/p/setting-up-and-using-spark-operator-with-kubernetes-gwd43jnKVX9</guid>
            <description><![CDATA[![](https://images.viblo.asia/a1645238-bd1d-449c-8364-ca4ccaf169c1.png)



Spark Operator is a Kubernetes Operator designed for Spark. It aims to defi...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Duy Nguyen</dc:creator>
            <pubDate>2024-06-07 20:50:39</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Giới Thiệu về Apache Spark]]></title>
                        <link>https://viblo.asia/p/gioi-thieu-ve-apache-spark-x7Z4DAdyJnX</link>
            <guid isPermaLink="true">https://viblo.asia/p/gioi-thieu-ve-apache-spark-x7Z4DAdyJnX</guid>
            <description><![CDATA[Định nghĩa Spark Dataframes
Spark Dataframes là các bộ thu thập dữ liệu phân tán được sắp xếp thành các columns, tương tự như bảng trong cơ sở dữ liệu...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Hà Thanh Bình</dc:creator>
            <pubDate>2024-06-06 15:04:34</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Hadoop Architecture, Data Lake, and Apache Spark]]></title>
                        <link>https://viblo.asia/p/hadoop-architecture-data-lake-and-apache-spark-aNj4vbKx46r</link>
            <guid isPermaLink="true">https://viblo.asia/p/hadoop-architecture-data-lake-and-apache-spark-aNj4vbKx46r</guid>
            <description><![CDATA[Hadoop là gì và nó hoạt động như thế nào?
Hadoop là một nền tảng xử lý dữ liệu phân tán cung cấp các khả năng cốt lõi sau.

* YARN - Cluster Resource ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Hà Thanh Bình</dc:creator>
            <pubDate>2024-06-04 22:24:25</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Spark Streaming trong Apache Spark]]></title>
                        <link>https://viblo.asia/p/spark-streaming-trong-apache-spark-y37Ld1m2Vov</link>
            <guid isPermaLink="true">https://viblo.asia/p/spark-streaming-trong-apache-spark-y37Ld1m2Vov</guid>
            <description><![CDATA[Spark Streaming là một thành phần quan trọng của Apache Spark, cho phép xử lý dữ liệu trực tiếp và liên tục từ nhiều nguồn khác nhau như Kafka, Flume,...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Thống PM</dc:creator>
            <pubDate>2024-06-03 19:11:41</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Thư viện MLlib trong Apache Spark]]></title>
                        <link>https://viblo.asia/p/thu-vien-mllib-trong-apache-spark-3kY4g0mOJAe</link>
            <guid isPermaLink="true">https://viblo.asia/p/thu-vien-mllib-trong-apache-spark-3kY4g0mOJAe</guid>
            <description><![CDATA[MLlib là một thư viện machine learning được tích hợp sẵn trong Apache Spark, cung cấp một loạt các công cụ và thuật toán machine learning để xây dựng ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Thống PM</dc:creator>
            <pubDate>2024-06-03 19:03:10</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Spark SQL trong Apache Spark]]></title>
                        <link>https://viblo.asia/p/spark-sql-trong-apache-spark-pgjLN25PL32</link>
            <guid isPermaLink="true">https://viblo.asia/p/spark-sql-trong-apache-spark-pgjLN25PL32</guid>
            <description><![CDATA[Spark SQL là một thành phần quan trọng của Apache Spark, cung cấp một cách tiếp cận linh hoạt và hiệu quả để thực hiện các truy vấn và biến đổi dữ liệ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Thống PM</dc:creator>
            <pubDate>2024-06-03 18:56:05</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Datasets trong Apache Spark]]></title>
                        <link>https://viblo.asia/p/datasets-trong-apache-spark-AZoJjrmEJY7</link>
            <guid isPermaLink="true">https://viblo.asia/p/datasets-trong-apache-spark-AZoJjrmEJY7</guid>
            <description><![CDATA[Dataset là một khái niệm quan trọng trong Apache Spark, cung cấp một lớp trừu tượng hóa dữ liệu phân tán với các tính năng của cả RDDs và DataFrames. ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Thống PM</dc:creator>
            <pubDate>2024-06-03 18:46:27</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[DataFrames trong Apache Spark]]></title>
                        <link>https://viblo.asia/p/dataframes-trong-apache-spark-BQyJKG55JMe</link>
            <guid isPermaLink="true">https://viblo.asia/p/dataframes-trong-apache-spark-BQyJKG55JMe</guid>
            <description><![CDATA[DataFrames là một khái niệm quan trọng trong Apache Spark, cung cấp một cách linh hoạt và hiệu quả để làm việc với dữ liệu dưới dạng bảng có cấu trúc,...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Thống PM</dc:creator>
            <pubDate>2024-06-03 18:39:35</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Resilient Distributed Datasets (RDDs) trong Apache Spark]]></title>
                        <link>https://viblo.asia/p/resilient-distributed-datasets-rdds-trong-apache-spark-38X4E6eBJN2</link>
            <guid isPermaLink="true">https://viblo.asia/p/resilient-distributed-datasets-rdds-trong-apache-spark-38X4E6eBJN2</guid>
            <description><![CDATA[Resilient Distributed Datasets (RDDs) là một cấu trúc dữ liệu cơ bản và quan trọng trong Apache Spark, cho phép xử lý dữ liệu phân tán trên các cụm má...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Thống PM</dc:creator>
            <pubDate>2024-06-03 18:17:35</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Apache Spark #1: kiến thức cơ bản về nền tảng của Apache Spark]]></title>
                        <link>https://viblo.asia/p/apache-spark-1-kien-thuc-co-ban-ve-nen-tang-cua-apache-spark-MG24BkEWJz3</link>
            <guid isPermaLink="true">https://viblo.asia/p/apache-spark-1-kien-thuc-co-ban-ve-nen-tang-cua-apache-spark-MG24BkEWJz3</guid>
            <description><![CDATA[Apache Spark là một nền tảng phân tích dữ liệu mạnh mẽ và phổ biến trong lĩnh vực Big Data. Được phát triển bởi Apache Software Foundation, Spark cung...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Thống PM</dc:creator>
            <pubDate>2024-06-03 19:12:46</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[ZeroOps with Auto Remediation for K8S]]></title>
                        <link>https://viblo.asia/p/zeroops-with-auto-remediation-for-k8s-aNj4vDb8L6r</link>
            <guid isPermaLink="true">https://viblo.asia/p/zeroops-with-auto-remediation-for-k8s-aNj4vDb8L6r</guid>
            <description><![CDATA[TL;DR
Trong quá trình vận hành K8s (mà thực ra chỉ là GKE) với vai trò là SRE, mình có phát triển 1 vài tool nhỏ để phục vụ công việc của mình. Hầu hế...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Sơn Phạm</dc:creator>
            <pubDate>2024-04-26 18:14:44</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Xử lý dữ liệu phân tán sử dụng Apache Spark và SageMaker]]></title>
                        <link>https://viblo.asia/p/xu-ly-du-lieu-phan-tan-su-dung-apache-spark-va-sagemaker-x7Z4DnGPLnX</link>
            <guid isPermaLink="true">https://viblo.asia/p/xu-ly-du-lieu-phan-tan-su-dung-apache-spark-va-sagemaker-x7Z4DnGPLnX</guid>
            <description><![CDATA[Apache Spark là một công cụ phân tích hợp nhất để xử lý dữ liệu quy mô lớn. Spark framework thường được sử dụng trong luồng học máy để chuyển đổi dữ l...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Kiên Lý</dc:creator>
            <pubDate>2024-01-19 20:00:00</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Spark - Distributed ML model with Pandas UDFs]]></title>
                        <link>https://viblo.asia/p/spark-distributed-ml-model-with-pandas-udfs-maGK7rWe5j2</link>
            <guid isPermaLink="true">https://viblo.asia/p/spark-distributed-ml-model-with-pandas-udfs-maGK7rWe5j2</guid>
            <description><![CDATA[English version can be read at Eng-Ver

 Image from analyticsindiamag.com

Why?

Dạo này đang tìm hiểu về nền tảng tính toán phân tán của Apache Spark...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Duy Nguyen</dc:creator>
            <pubDate>2022-03-22 00:53:00</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Tổng hợp bài viết giới thiệu về Hadoop và Spark thông qua khái niệm cơ bản và thực hành]]></title>
                        <link>https://viblo.asia/p/tong-hop-bai-viet-gioi-thieu-ve-hadoop-va-spark-thong-qua-khai-niem-co-ban-va-thuc-hanh-jvElaRdD5kw</link>
            <guid isPermaLink="true">https://viblo.asia/p/tong-hop-bai-viet-gioi-thieu-ve-hadoop-va-spark-thong-qua-khai-niem-co-ban-va-thuc-hanh-jvElaRdD5kw</guid>
            <description><![CDATA[Hadoop

Hadoop là framework dựa trên 1 giải pháp tới từ Google để lưu trữ và xử lý dữ liệu lớn. Hadoop sử dụng giải thuật MapReduce xử lý song song cá...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Nguyễn Quang Huy</dc:creator>
            <pubDate>2022-02-25 16:17:42</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Hadoop, Spark Multinode Cluster in DataProc]]></title>
                        <link>https://viblo.asia/p/hadoop-spark-multinode-cluster-in-dataproc-gDVK2dGwlLj</link>
            <guid isPermaLink="true">https://viblo.asia/p/hadoop-spark-multinode-cluster-in-dataproc-gDVK2dGwlLj</guid>
            <description><![CDATA[Google offers a managed Spark and Hadoop service. They call it Google Cloud Data Proc. It is almost same as Amazon's EMR. You can use Data Proc servic...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Nguyễn Trung Hậu</dc:creator>
            <pubDate>2021-08-22 22:12:57</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Ứng dụng Spark Streaming vào phân tích cảm xúc mạng xã hội Twitter]]></title>
                        <link>https://viblo.asia/p/ung-dung-spark-streaming-vao-phan-tich-cam-xuc-mang-xa-hoi-twitter-WAyK82r9lxX</link>
            <guid isPermaLink="true">https://viblo.asia/p/ung-dung-spark-streaming-vao-phan-tich-cam-xuc-mang-xa-hoi-twitter-WAyK82r9lxX</guid>
            <description><![CDATA[Intro
Realtime đang dần trở thành tính năng tiêu chuẩn của các ứng dụng hiện nay. Vậy làm thế nào để các mạng xã hội, nền tảng video,... xử lý lượng d...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Duy Hung Le</dc:creator>
            <pubDate>2020-05-31 23:58:44</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Tìm hiểu về Apache Spark]]></title>
                        <link>https://viblo.asia/p/tim-hieu-ve-apache-spark-ByEZkQQW5Q0</link>
            <guid isPermaLink="true">https://viblo.asia/p/tim-hieu-ve-apache-spark-ByEZkQQW5Q0</guid>
            <description><![CDATA[![](https://images.viblo.asia/030837b8-1509-4f38-8d94-8fb4d147092f.png)



Ngày nay có rất nhiều hệ thống đang sử dụng Hadoop để phân tích và xử lý dữ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Phuc Ngoc Nghia</dc:creator>
            <pubDate>2020-03-22 15:25:22</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Apache Spark Introduction]]></title>
                        <category>Development</category>
                        <link>https://viblo.asia/p/apache-spark-introduction-djeZ1xg8KWz</link>
            <guid isPermaLink="true">https://viblo.asia/p/apache-spark-introduction-djeZ1xg8KWz</guid>
            <description><![CDATA[Apache Spark Introduction

Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and ...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">TutorialKart</dc:creator>
            <pubDate>2017-11-04 12:25:29</pubDate>
                                                                                                        </item>
                <item>
            <title><![CDATA[Tổng quan về Apache Spark cho hệ thống Big Data]]></title>
                        <category>Development</category>
                        <link>https://viblo.asia/p/tong-quan-ve-apache-spark-cho-he-thong-big-data-RQqKLxR6K7z</link>
            <guid isPermaLink="true">https://viblo.asia/p/tong-quan-ve-apache-spark-cho-he-thong-big-data-RQqKLxR6K7z</guid>
            <description><![CDATA[![](https://images.viblo.asia/e458bfb3-2876-490e-8456-d1b03f87600c.jpg)


Apache Spark in-memory clusters đang là sự chú ý của nhiều doanh nghiệp tron...]]></description>
                        <dc:creator xmlns:dc="http://purl.org/dc/elements/1.1/">Hoang Trong Hieu</dc:creator>
            <pubDate>2017-06-29 15:49:27</pubDate>
                                                                                                        </item>
            </channel>
</rss>
