Ngôn ngữ lập trình sử dụng trong Data Science - [Data Science Series]
Bài đăng này đã không được cập nhật trong 2 năm
Có một số lượng lớn các lựa chọn khi nói đến ngôn ngữ lập trình nói riêng và ngôn ngữ lập trình trong Data Science . Mỗi người đều có điểm mạnh và điểm yếu của riêng và sẽ không có ai trả lời đúng cho câu hỏi bạn nên học cái nào trước. Câu trả lời cho câu hỏi đó phụ thuộc phần lớn vào nhu cầu của bạn, các vấn đề bạn đang cố gắng giải quyết và bạn đang giải quyết chúng cho ai.
Python, R và SQL là những ngôn ngữ mà mình khuyên bạn nên xem xét đầu tiên bên cạnh những ngôn ngữ có điểm mạnh và tính năng riêng như Scala, Java, C ++ và Julia, JavaScript, PHP, GO, Ruby và Visual Basic. Ngôn ngữ bạn chọn để học sẽ phụ thuộc vào những điều bạn cần phải thực hiện và các vấn đề bạn cần giải quyết. Nó cũng sẽ phụ thuộc vào công ty bạn làm việc cho, vai trò của bạn và tuổi của ứng dụng hiện tại của bạn. Chúng ta sẽ khám phá câu trả lời cho câu hỏi này khi chúng ta đi sâu vào các ngôn ngữ phổ biến trong ngành Data Science.
Mình sẽ tập trung giới thiệu phần lớn vào ba ngôn ngữ Data Science hàng đầu: Python, R và SQL.
1. Python
Python là một ngôn ngữ vô cùng quyền lực . Nó là ngôn ngữ lập trình phổ biến nhất cho Data Science. Theo Khảo sát Kaggle Data Science and Machine Learning 2019 , 75% trong số hơn 10.000 người được hỏi từ khắp nơi trên thế giới đã báo cáo rằng họ sử dụng Python một cách thường xuyên. Glassdoor đã báo cáo rằng năm 2019, hơn 75% vị trí khoa học dữ liệu được liệt kê bao gồm Python trong công việc của họ. Khi được hỏi ngôn ngữ nào một nhà khoa học dữ liệu đầy tham vọng nên học trước, hầu hết các nhà khoa học dữ liệu đều nói Python. Bạn có thể đang nghĩ, tại sao trên trái đất là Python rất phổ biến? Chà, hãy bắt đầu với những người sử dụng Python. Nếu bạn đã biết cách lập trình, thì Python là tuyệt vời cho bạn vì nó sử dụng cú pháp rõ ràng, có thể đọc được. Bạn có thể làm nhiều điều bạn đã quen làm trong các ngôn ngữ lập trình khác nhưng với Python, bạn có thể làm điều đó với ít mã hơn. Nếu bạn muốn học lập trình, đó cũng là một ngôn ngữ bắt đầu tuyệt vời vì Python có một cộng đồng khổng lồ và nguồn tài liệu phong phú. Trên thực tế, một số cuộc khảo sát khác nhau trong năm 2019 cho thấy hơn 80% các chuyên gia dữ liệu trên toàn thế giới sử dụng Python. Python rất hữu ích cho nhiều lĩnh vực, bao gồm khoa học dữ liệu, AI và học máy, phát triển web và các thiết bị IoT như Raspberry Pi. Các tổ chức lớn sử dụng Python nhiều bao gồm IBM, Wikipedia, Google, Yahoo !, Cern, NASA, Facebook, Amazon, Instagram, Spotify và Reddit.
- Python là một ngôn ngữ lập trình đa năng mạnh mẽ có thể làm nhiều việc.
- Nó được hỗ trợ rộng rãi bởi một cộng đồng toàn cầu và được tổ chức bởi Quỹ phần mềm Python
- Python là ngôn ngữ lập trình đa năng cấp cao có thể được áp dụng cho nhiều loại vấn đề khác nhau.
- Nó có một thư viện tiêu chuẩn lớn, cung cấp các công cụ phù hợp với nhiều tác vụ khác nhau, bao gồm nhưng không giới hạn ở cơ sở dữ liệu, tự động hóa, quét web, xử lý văn bản, xử lý hình ảnh, học máy và phân tích dữ liệu.
- Đối với khoa học dữ liệu, bạn có thể sử dụng các thư viện điện toán khoa học của Python như Pandas, numpy, scipy và matplotlib.
- Đối với trí tuệ nhân tạo, Python có Tensorflow, Pytorch, Keras và Scikit-Learn.
- Python cũng có thể được sử dụng để xử lý ngôn ngữ tự nhiên (NLP) bằng bộ công cụ ngôn ngữ tự nhiên (NLTK)
2. R
Giống như Python, R có thể sử dụng miễn phí, nhưng đó là một dự án GNU - thay vì là nguồn mở, nó là phần mềm miễn phí. R là một ngôn ngữ khác được hỗ trợ bởi một cộng đồng toàn cầu của mọi người đam mê về việc giúp sử dụng ngôn ngữ để giải quyết các vấn đề lớn. R tường được sử dụng bởi các nhà thống kê, nhà toán học và công cụ khai thác dữ liệu để phát triển phần mềm thống kê, biểu đồ và phân tích dữ liệu. Cú pháp định hướng mảng của ngôn ngữ R giúp dễ dàng dịch từ toán sang code, đặc biệt là đối với người không có nền tảng lập trình tối thiểu. Một số tập đoàn lớn sử dụng R: IBM, Google, Facebook, Microsoft, Bank of America, Ford, TechCrunch, Uber và Trulia. R đã trở thành kho kiến thức thống kê lớn nhất thế giới. Tính đến năm 2018, R có hơn 15.000 package được phát hành công khai, cho phép tiến hành phân tích dữ liệu khám phá phức tạp. R tích hợp tốt với các ngôn ngữ máy tính khác, chẳng hạn như C ++, Java, C, .Net và Python. R có các cơ sở lập trình hướng đối tượng mạnh mẽ hơn so với hầu hết các ngôn ngữ điện toán thống kê. Có nhiều cách để kết nối với người dùng R khác trên toàn cầu như Whyr?, Satrday và R-Ladies
3. SQL
SQL khác một chút so với các ngôn ngữ khác. Mặc dù chúng viết tắt cho "Structure Query Language" - "Ngôn ngữ truy vấn có cấu trúc", nhiều người không coi SQL giống như các ngôn ngữ phát triển phần mềm khác vì đây là ngôn ngữ phi thủ thuật và phạm vi của nó bị giới hạn trong việc truy vấn và quản lý dữ liệu. Mặc dù nó không phải là ngôn ngữ "khoa học dữ liệu", các nhà khoa học dữ liệu thường xuyên sử dụng nó vì nó đơn giản và mạnh mẽ! Một vài sự thật về SQL: nó già hơn nhiều so với Python và R, khoảng 20 năm, lần đầu tiên xuất hiện vào năm 1974. Ngôn ngữ này rất hữu ích trong việc xử lý dữ liệu có cấu trúc, là dữ liệu kết hợp các mối quan hệ giữa các thực thể và biến. SQL được thiết kế để quản lý dữ liệu trong cơ sở dữ liệu quan hệ. Một cơ sở dữ liệu quan hệ được hình thành bởi các bộ sưu tập các bảng hai chiều; Ví dụ, bộ dữ liệu và bảng tính Microsoft Excel. Mỗi bảng này sau đó được hình thành bởi một số cột cố định và bất kỳ số lượng hàng nào. Mặc dù SQL ban đầu được phát triển để sử dụng với các cơ sở dữ liệu quan hệ, bởi vì nó rất phổ biến và dễ sử dụng, giao diện SQL cho nhiều kho lưu trữ dữ liệu lớn và dữ liệu lớn cũng đã được phát triển. Ngôn ngữ SQL được chia thành một số yếu tố ngôn ngữ, bao gồm các điều khoản, biểu thức, vị ngữ, truy vấn và câu lệnh. Biết SQL sẽ giúp bạn thực hiện nhiều công việc khác nhau trong khoa học dữ liệu, bao gồm cả nhà phân tích kinh doanh và dữ liệu, và đó là điều bắt buộc trong kỹ thuật dữ liệu. Khi thực hiện các hoạt động với SQL, bạn truy cập trực tiếp vào dữ liệu mà không cần phải sao chép. Điều này có thể tăng tốc độ thực hiện quy trình làm việc đáng kể. SQL là trình thông dịch giữa bạn và cơ sở dữ liệu. Nếu bạn học SQL và sử dụng nó với một cơ sở dữ liệu, bạn sẽ có thể dễ dàng áp dụng kiến thức SQL đó cho nhiều cơ sở dữ liệu khác. Có nhiều cơ sở dữ liệu SQL khác nhau có sẵn, bao gồm MySQL, IBM DB2, PostgreSQL, Apache OpenOffice Base, SQLite, Oracle, Mariadb, Microsoft SQL Server, v.v. Cú pháp của SQL bạn viết có thể thay đổi một chút dựa trên hệ thống quản lý cơ sở dữ liệu quan hệ mà bạn đang sử dụng.
Tham khảo từ quyển Getting Started with Data Science của IBM
All rights reserved