Asked Apr 10th, 2:50 PM 73 0 2
  • 73 0 2
0

Cách cookpad xử lý tag, bài viết liên quan

Share
  • 73 0 2

Nay mình có vào trang Cookpad để xem mấy công thức thì thấy họ có 1 cái làm tag và bold số lượng nguyên liệu khá hay. Nên muốn vào đây hỏi các bạn xem cách họ xử lý như nào hoặc cách tương đương mà các bạn đang làm 😄

Các tag của công thức sẽ cắt từ tên công thức ra VD: mì Ý sốt bò băm thì tag sẽ là Mì Ý, Sốt bò băm, Bò...

các từ họ cắt ra từ tên công thức đều là từ có ý nghĩa nhất định chứ không phải là cắt từng từ ra một

Thứ 2 là họ xử lý khi viết nguyên liệu mà có khối lượng đi kèm thì sẽ bold cái khối lượng đó lên

MÌnh thấy cái này khá hay nên muốn hỏi xem mọi người nghĩ họ xử lý thế nào, có dùng AI không 😄

Nguyễn Hữu Kim @huukimit
Apr 12th, 6:40 AM

Nhìn ngon quá! ^^

+1
| Reply
Share

2 ANSWERS


Answered Apr 12th, 6:39 AM
+4

Thứ nhất, đầu tiên string của họ ban đầu là "Spaghettis beef (mỳ Ý bò)" tách ra thành "Spaghettis beef mỳ_Ý bò". Đây là bài toán tách từ.

Tham khảo: Pyvi. Dĩ nhiên, muốn tách tốt trong domain này bạn phải train lại với dữ liệu của bạn trong domain đấy. Pyvi được training trên dữ liệu báo chí. Bước này chính là sử dụng AI nhưng đơn giản thôi, không hầm hố gì

Thứ 2, trích xuất các đơn vị đo lường nguyên liệu thì họ dùng regex để tách những cái đó ra. Tham khảo: https://docs.python.org/2/library/re.html

Share
Answered Apr 12th, 5:53 AM
0

Bạn có thể sử dụng AI trong bài toán này nhé. Theo mình thì đây là bài toán phân loại hình ảnh khá phổ biến trong Deep Learning. Bạn có thể tìm hiểu các từ khóa về image classification và CNN hoặc có thể tham khảo bài viết này

https://viblo.asia/p/handbook-cv-with-dl-phan-2-bai-toan-phan-loai-hinh-anh-image-classification-voi-tensorflow-va-tensorboard-1Je5EJa1KnL

Sau khi bạn nhận dạng ra là món ăn gì thì cần mapping nó với một DB để có thể ra được các nguyên liệu tương ứng với món ăn đó.

Thân

Share
Tuan Anh Nguyen @TuanAnh9996
Apr 12th, 6:01 AM

@pham.van.toan đầu tiên mình cũng nghĩ là họ cho AI nhận dạng hình ảnh, nhưng khi mình không up ảnh lên hoặc ảnh lung tung thì nó vẫn có thể lấy ra được những tag đó 😄, mình nghĩ là họ đã cắt ra từ cái tên công thức vì khi mình sửa cái tên thì đống tag đó cũng thay đổi theo

0
| Reply
Share
Phạm Văn Toàn @pham.van.toan
Apr 12th, 6:08 AM

@TuanAnh9996 vậy thì các đơn giản nhất bạn có thể sử dụng đó là xây dựng một bộ từ điển các tag ra rồi sử dụng best match để tìm ra được tập các tag phù hợp với tên công thức nhất. Cách này hơi mất thời gian chuẩn bị tên công thức nhưng đối với các dạng câu ngắn như này mình nghĩ nó sẽ hiệu quả. Ngoài ra bạn thể tiếp cận theo bài toán Named Entity Recognition nhưng vẫn cần chuẩn bị dữ liệu cho thuật toán này vì các dữ liệu này khá là đặc thù, không có sẵn.

+1
| Reply
Share