Đã đăng vào thg 5 14, 4:57 CH 7 phút đọc

Intro to Spark

MayFest2024

_____________________ 1 _____________________

SparkContext: tạo cụm
SparkConf(): tạo thuộc tính cho đối tượng

_____________________ 2 _____________________

from pyspark.sql import SparkSession as spark

pd_temp = pd.DataFrame(np.random.random(10))

+ Tạo Spark DataFrame

spark_temp = spark.createDataFrame(pd_temp)

+ Kiểm tra thông tin df

spark.catalog.listTables()

+ Tạo df tạm, nếu df đã tồn tại thì bỏ df này

.createTempView()

+ Tạo df tạm, nếu df đã tồn tại thì thay thế bằng df này

spark_temp.createOrReplaceTempView("temp")

_____________________ 3 _____________________

Đọc file .csv

file_path = "/usr/local/share/datasets/airports.csv" airports = spark.read.csv(file_path, header=True) airports.show()

Đọc file .log

log_file_path = "path/to/your/log/file.log" log_data = spark.read.text(log_file_path)

_____________________ 4 _____________________

Thêm cột vào df (dùng .withColumn)

df = df.withColumn("tên_cột", biểu thức) VD: flights = flights.withColumn("duration_hrs", flights.air_time/60)

_____________________ 5 _____________________

Filter (giống WHERE trong SQL)

long_flights = flights.filter("distance > 1000") long_flights.show()

_____________________ 6 _____________________

SELECT (có 2 cách select như bên dưới)

selected1 = flights.select("tailnum", "origin", "dest") temp = flights.select(flights.origin, flights.dest, flights.carrier)

#Filter filterA = flights.origin == "SEA" filterB = flights.dest == "PDX"

selected2 = temp.filter(filterA).filter(filterB)

_____________________ 7 _____________________

alias

#Định nghĩa avg_speed avg_speed = (flights.distance/(flights.air_time/60)).alias("avg_speed")

#Cách 1 speed1 = flights.select("origin", "dest", "tailnum", avg_speed)

#Cách 2 speed2 = flights.selectExpr("origin", "dest", "tailnum", "distance/(air_time/60) as avg_speed")

.select chỉ được lấy cột từ df ban đầu .selectExpr có thể lấy cột từ việc sử dụng các tính toán (ví dụ đổi phút sang giờ rồi sử dụng alias)

_____________________ 8 _____________________

min, max, count đều thuộc nhóm phương thức Group

df.groupBy().min("col").show() VD: flights.filter(flights.origin == "PDX").groupBy().min("distance").show()

_____________________ 9 _____________________

Function

import pyspark.sql.functions as F

by_month_dest = flights.groupBy("month", "dest") by_month_dest.avg("dep_delay").show() by_month_dest.agg(F.stddev("dep_delay")).show()

-> In ra AVG: +-----+----+-----------------------+ |month|dest| avg(dep_delay) | +-----+----+-----------------------+ | 11| TUS| -2.3333333333333335| | 11| ANC| 7.529411764705882| | 1| BUR| -1.45| +-----+----+--------------------+

-> In ra std: +-----+----+---------------------------+ |month|dest|stddev_samp(dep_delay)| +-----+----+---------------------------+ | 11| TUS| 3.0550504633038935| | 11| ANC| 18.604716401245316| | 1| BUR| 15.22627576540667| +-----+----+---------------------------+

_____________________ 10 _____________________

Join

flights_with_airports = flights.join(airports, on="dest", how="leftouter") ** Phải đổi tên 2 cột để trùng nhau khi so sánh

_____________________ 11 _____________________

Machine Learning Pipelines

Cốt lõi của module pyspark.ml là các lớp Transformer và Estimator. Hầu hết mọi lớp khác trong mô-đun đều hoạt động tương tự như hai lớp cơ bản này.
Các lớp Transformer có phương thức .transform() lấy DataFrame và trả về DataFrame mới; thường là bản gốc có cột mới được thêm vào. Ví dụ: bạn có thể sử dụng lớp Bucketizer để tạo các thùng riêng biệt từ một tính năng liên tục hoặc lớp PCA để giảm kích thước của tập dữ liệu bằng cách sử dụng phân tích thành phần chính.
Tất cả các lớp ước tính đều triển khai phương thức .fit(). Các phương thức này cũng lấy một DataFrame, nhưng thay vì trả về một DataFrame khác, chúng trả về một đối tượng mô hình. Đây có thể giống như StringIndexerModel để bao gồm dữ liệu phân loại được lưu dưới dạng chuỗi trong mô hình hoặc RandomForestModel sử dụng thuật toán rừng ngẫu nhiên để phân loại hoặc hồi quy.

_____________________ 12 _____________________

- Do Spark chỉ nhận đầu vào là số nên cần chuyển lại kiểu dữ liệu (nếu đang để str)

.cast("kiểu dữ liệu") ** kiểu dữ liệu ở đây là: integer, double

VD: model_data = model_data.withColumn("arr_delay", model_data.arr_delay.cast("integer"))

_____________________ 13 _____________________

Để có thể chuyển dữ liệu string sang int, ta sử dụng one-hot-vectors của pyspark.ml.features

Việc cần làm là tạo StringIndexer và OneHotEncoder, còn Pipeline sẽ xử lý phần còn lại
StringIndexer: StringIndexer là một bước quan trọng trong việc chuyển đổi các giá trị chuỗi thành các số nguyên. StringIndexer thực hiện công việc này bằng cách gán một số nguyên duy nhất cho mỗi giá trị trong cột chuỗi dựa trên tần số xuất hiện của các giá trị đó. Ví dụ, nếu bạn có một cột "color" với các giá trị "red", "green", "blue", thì StringIndexer sẽ gán cho chúng các số 0, 1, và 2 tương ứng.
OneHotEncoder: Sau khi đã biến đổi các giá trị chuỗi thành số nguyên bằng StringIndexer, bạn thường sẽ muốn tiếp tục biến đổi chúng thành dạng số nhị phân (binary) để sử dụng trong các mô hình học máy. Đối với mỗi giá trị trong cột đã được biến đổi bằng StringIndexer, OneHotEncoder sẽ tạo ra một vectơ nhị phân với tất cả giá trị là 0 trừ giá trị tương ứng với giá trị ban đầu, nó sẽ được đánh dấu là 1. Điều này giúp mô hình hiểu được rằng mỗi giá trị không phải là một biến liên tục mà là một biến category. Ví dụ: Nếu bạn có cột "color" đã được biến đổi bằng StringIndexer thành [0, 1, 2] và sau đó sử dụng OneHotEncoder, nó có thể trở thành: "red" -> [1, 0, 0] "green" -> [0, 1, 0] "blue" -> [0, 0, 1] Kết hợp cả hai bước này, bạn có thể biến đổi dữ liệu chuỗi thành dạng số thực hiện việc huấn luyện mô hình học máy trên chúng.

_____________________ 14 _____________________

- Code

#Tạo StringIndexer carr_indexer = StringIndexer(inputCol = 'carrier', outputCol = 'carrier_index')

#Tạo OneHotEncoder carr_encoder = OneHotEncoder(inputCol = 'carrier_index', outputCol = 'carrier_fact')

#Tạo VectorAssembler vec_assembler = VectorAssembler(inputCols=["month", "air_time", "carrier_fact", "dest_fact", "plane_age"], outputCol="features")

#Tạo pipeline from pyspark.ml import Pipeline flights_pipe = Pipeline(stages=[dest_indexer, dest_encoder, carr_indexer, carr_encoder, vec_assembler])

#Fit và chuyển đổi dữ liệu piped_data = flights_pipe.fit(model_data).transform(model_data)

#Chia dữ liệu train, test training, test = piped_data.randomSplit([0.6, 0.4])

_____________________ 15 _____________________

Logistic regression

Dự đoán xác suất xảy ra sự kiện Nếu xác suất lớn hơn giá trị ngưỡng thì -> 1, True hoặc Yes Ngược lại -> 0, False hoặc No

#import from pyspark.ml.classification import LogisticRegression #Khởi tạo LogisticRegression Estimator lr = LogisticRegression()

_____________________ 16 _____________________

Xác thực chéo (cross validation)
- Code

import pyspark.ml.evaluation as evals

#Tạo BinaryClassificationEvaluator (dành cho phân loại nhị phân như Logistic) evaluator = evals.BinaryClassificationEvaluator(metricName="areaUnderROC")

#Import tuning submodule import pyspark.ml.tuning as tune

#Tạo lưới tham số (parameter grid) grid = tune.ParamGridBuilder()

#Thêm các hyperparameter grid = grid.addGrid(lr.regParam, np.arange(0, .1, .01)) grid = grid.addGrid(lr.elasticNetParam, [0, 1])

#Build the grid grid = grid.build()

#Tạo CrossValidator cv = tune.CrossValidator(estimator=lr, estimatorParamMaps=grid, evaluator=evaluator)

#Call lr.fit() best_lr = lr.fit(training)

#Print best_lr print(best_lr)

_____________________ 17 _____________________

** AUC càng gần 1 càng tốt

#Sử dụng test để đánh giá mô hình test_results = best_lr.transform(test)

#Đánh giá dự đoán print(evaluator.evaluate(test_results))

_____________________ End _____________________

Pyspark Spark

Mục lục