LPIC-1_Chương 1: Khám Phá Command-Line trên Linux Phần 3: Xử lý text bằng filter trong Linux (cat, join, paste, sort, head, tail, wc)

Phần 3: Xử lý text bằng filter trong Linux

1.1. Lệnh combine file

CAT

Giả sử ta có 2 file text chứa nội dung và giờ ta muống gộp nội dung 2 files vào chung 1 file. Ta sẽ làm điều đó với lệnh cat ( concatenate)

file1.txt

text from file1

file2.txt

text from file2

$ cat file1.txt file2.txt > file3.txt

file3.txt

text from file1

text from file2

Ta còn có thể dùng cat như một lệnh để đọc file có nội dung vừa phải như sau:

$ cat file3.txt

Lệnh tac tương tự với lệnh cat nhưng hiển thị ngược lại về trình tự nội dung file. Ví dụ:

$ cat file3.txt

file3.txt

text from file2

text from file1

Tuy nhiên với các file chứa nhiều nội dung thì ta nên dùng lệnh more hoặc less để xem. Lệnh cat có nhiều option khác nhau đễ hỗ trợ ta thay đổi đôi chút text file khi tiến hành nối file:

  • Nếu ta muốn xem dòng kết thúc ở đâu ta sử dụng option -E (end), hệ thống sẽ thêm ký hiệu $ vào mỗi cuối dòng.

  • Đánh số mỗi dòng với option -n (number line), option -b (nonblank) cũng có chức năng tương tự những dòng trống sẽ không được đánh dấu.

  • Gộp nhiều dòng trống lại thành 1 dòng trống duy nhất với option -s

** list1.txt**

Andy 1992

Bob 1995

Jane 1998

** list2.txt**

Andy fireman

Bob cop

Jane student

JOIN

Lệnh cat giúp ta nối file theo vertival (hàng dọc), lệnh join thì ngược lại giúp ta nối file theo horizon (hàng ngang)

$ join list1.txt list2.txt

Mặc định join dùng field đầu tiên làm key để ghép 2 file lại với nhau.

PASTE

Lệnh paste dùng để nối dòng với dòng, cách nhau bởi TAB, và không gộp chung key như join.

$ paste list1.txt list2.txt


1.2. Lệnh transform file

Transforming file không nhắm đến thay đổi nội dung file mà thay đổi nội dung được xuất ra stdout để pipe đến 1 program khác.

SORT

$ sort -k 2 list2.txt

Sort hỗ trợ ta loại bỏ các text trùng lặp (duplicate) với optiopn uniq:


1.3. Lệnh format file

Giả sử ta muống định dạng file name profie được đánh số mỗi dòng và có dấu cách ở mỗi dòng, ta làm như sau:

$ cat -n /etc/profile | pr -d


1.4. Lệnh view file

HEAD

Xem nhanh 5 dòng đầu tiên với lệnh head:

$ cat /etc/profile | head -n 5 > file1.txt

TAIL

Xem nhanh 5 dòng cuối với lệnh tail:

$ cat /etc/profile | tail -n 5 > file1.txt

Xem nội dung file với lệnh less, lệnh less thực chất được cải tiến từ lệnh more, các developer đùa rằng less is more.

$ less /etc/securetty

Các phím thao tác trong khi mở file với less:

  • SPACE BAR: để qua một trang khác

  • ESC + V: để lùi lại một trang

  • /<keyword> : để tìm kiếm theo từ khóa (case sensitive), nhấn n để di chuyển con trỏ đến kết quả tìm kiếm tiếp theo.

  • g<line number>: để đi đến dòng mình muốn.

  • q: để thoát khoải chương trình


1.5. Lệnh sumarize file

CUT

Trích xuất đoạn text mong muống với lệnh cut. Ví dụ ta muốn trích xuất mac address của card mạng eth0 như trong hình sau:

Ta sẽ sử dụng câu lệnh sau:

Ở đây ta giới hạn dòng mong muốn với lệnh grep kèm keyword, sau đó dùng lệnh cut với option -d " " để hệ thống nhận biết các từ phân cách với nhau bởi khoảng trắng và -f để chỉ field mà ta mong muốn cut ra từ đó (nằm ở dấu khoảng trắng thứ 11 từ trái sang phải).

WC

Đếm số dòng, số từ, số byte của 1 file với lệnh wc (word count):

  • số dòng: 400

  • số từ 606

  • số byte: 4038 bytes

Vậy là chúng ta lại kết thúc một phần nữa, các bạn hãy thực hành trên terminal để hiểu và nhớ nhé. Nếu có thắc mắc gì hãy comment dưới post của mình nhé. Chúc các bạn thành công.