thuật toán bên mình tự phát triển riêng, sử dụng kết hợp giữa n-gram + invert index + thuật toán tự xây cho đối chiếu 2 đoạn text, nó hơi phức tạp với lại là bí thuật của công ty nên xin phép không chi tiết hơn. Trước đây data ở kích thước nhỏ thì bên mình có dùng Lucene (có customize) kết hợp với Word Embedding để tính toán, nhưng dữ liệu khi lên lớn hơn 10 triệu urls thì phải tinh chỉnh và tự viết, không dùng công nghệ có sẵn được (muốn dùng thì phải đốt tiền nâng server). Vì các công nghệ full-text search có sẵn phù hợp với search engine truyền thống: hợp với search keyword ngắn, cachable; còn kiểm tra đạo văn thì toàn tìm câu văn dài.
Đọc xong bài viết này mình đăng ký ngay tài khoản để comment. Mình coi một đống video trên youtube mà cũng ko hiểu gì về LoRA hết thế mà đọc xong bài của tác giả cái hiểu ngay luôn. Cảm ơn tác giả nhiều !
Em chào anh, thì e có thắc mắc là hàm boxes to tensor anh chuyển từ x,y của top_left sang center_x, center_y, rồi hàm target tensor to boxes anh lại chuyển nó về top_left đúng không ạ?
Cảm ơn tác giả. Hiện tại mình cũng đang được giao task tìm hiểu ElasticSearch để đưa vào hệ thống. Yêu cầu của hệ thống cũng khá giống với Viblo.
Mình đang gặp khó khăn trong việc tổ chức index.
Hệ thống hiện tại thì dùng SQL Server để lưu data và ElasticSearch để search. Mình đang phân vân giữa 2 giải pháp.
Mỗi table trong Sql server sẽ tạo một index tương ứng. Ví dụ như Viblo thì sẽ tạo index Bài Viết, Câu Hỏi, Tác Giả.
Tạo một index union cho tất cả các type và thêm một field type cho document.
Cam on anh nhe. Bai viet rat day du va de hieu. Ben em lam automation test voi Java, khi muon thuc thi da luong (parallel testing) cung can set-up de toi uu nhieu phan nhu the nay. Singleton pattern + ThreadLocal la du.
trước kia team mình dùng Java do làm việc với Apache Lucene (lõi của Elastic Search và Solr), hỗ trợ xử lý đa luồng tốt và quen tay code Java từ trước. Tuy nhiên, nếu xử lý văn bản liên tục thì RAM + CPU lúc nào cũng full 100% và mình phải lựa chọn giữa việc tăng máy chủ (x2 tiền) hoặc cải tiến code. Qua khảo sát thì thấy nó hiệu năng cao hơn, hỗ trợ đa luồng khá tốt mà cú pháp cũng không quá phức tạp, đồng thời có vài thư viện mà mình tối thiểu cần có như RabbitMQ, API để giao tiếp với các service khác (mấy cái của C/C++ nó không có hoặc nhiều issues). Mất hơn 5 tháng để convert hết code xử lý mình cần sang Rust nhưng kết quả nó cũng đáng: hiệu năng gấp tầm 25-30 lần mà RAM chỉ dùng chưa đến 1/10 so với Java, CPU thi thoảng nhảy nhót vài giây xong là thôi.
THẢO LUẬN
thuật toán bên mình tự phát triển riêng, sử dụng kết hợp giữa n-gram + invert index + thuật toán tự xây cho đối chiếu 2 đoạn text, nó hơi phức tạp với lại là bí thuật của công ty nên xin phép không chi tiết hơn. Trước đây data ở kích thước nhỏ thì bên mình có dùng Lucene (có customize) kết hợp với Word Embedding để tính toán, nhưng dữ liệu khi lên lớn hơn 10 triệu urls thì phải tinh chỉnh và tự viết, không dùng công nghệ có sẵn được (muốn dùng thì phải đốt tiền nâng server). Vì các công nghệ full-text search có sẵn phù hợp với search engine truyền thống: hợp với search keyword ngắn, cachable; còn kiểm tra đạo văn thì toàn tìm câu văn dài.
GÚT CHÓP bro
@Plumpboy cảm ơn bác, đó giờ em vẫn thắc mắc sao composer install lúc build xong không thấy vendor đâu
@chuyenbka giờ mới đọc được cái cmt này,rất hữu ích ạ, cảm ơn 2 anh đã khai sáng thêm
Ở phần check trùng bạn sử dụng thuật toán gì để kiểm tra vậy ạ
HI Bác, tò mò về các câu hỏi xoay quanh vấn đề management, bác ôn ở đâu vậy ạ.
@dunguyen01 a ko biết nữa, nhưng cứ thử thôi e ạ
quá hay, đang tìm mãi cái này, cảm ơn tác giả
Hmmmm, có thể gọi kỹ thuật đấy là QR overlay/replace attack 🤔
@maitrungduc1410 e mới có bằng cao đẳng không có bằng đại học ko biết có đc không ạ .
Đọc xong bài viết này mình đăng ký ngay tài khoản để comment. Mình coi một đống video trên youtube mà cũng ko hiểu gì về LoRA hết thế mà đọc xong bài của tác giả cái hiểu ngay luôn. Cảm ơn tác giả nhiều !
Bài viết hay quá 🫢🫢
Hay quá anh oiiii. Hóng phần tiếp theooo🫠🫠
SOLID tạo ra cho các ngôn ngữ OOP và backend là chủ yếu. Cố gắng áp vào frontend thì chỉ làm sai lệch ý nghĩa đi thôi (rõ nhất là phần I với D).
Em chào anh, thì e có thắc mắc là hàm boxes to tensor anh chuyển từ x,y của top_left sang center_x, center_y, rồi hàm target tensor to boxes anh lại chuyển nó về top_left đúng không ạ?
Cảm ơn tác giả. Hiện tại mình cũng đang được giao task tìm hiểu ElasticSearch để đưa vào hệ thống. Yêu cầu của hệ thống cũng khá giống với Viblo. Mình đang gặp khó khăn trong việc tổ chức index. Hệ thống hiện tại thì dùng SQL Server để lưu data và ElasticSearch để search. Mình đang phân vân giữa 2 giải pháp.
Nếu được thì mong bạn có thể chia sẻ thêm.
Cam on anh nhe. Bai viet rat day du va de hieu. Ben em lam automation test voi Java, khi muon thuc thi da luong (parallel testing) cung can set-up de toi uu nhieu phan nhu the nay. Singleton pattern + ThreadLocal la du.
🫠🫠dán mã QR của mình đè lên QR của nhà hàng có là QRLJacking không nhỉ 🫠
trước kia team mình dùng Java do làm việc với Apache Lucene (lõi của Elastic Search và Solr), hỗ trợ xử lý đa luồng tốt và quen tay code Java từ trước. Tuy nhiên, nếu xử lý văn bản liên tục thì RAM + CPU lúc nào cũng full 100% và mình phải lựa chọn giữa việc tăng máy chủ (x2 tiền) hoặc cải tiến code. Qua khảo sát thì thấy nó hiệu năng cao hơn, hỗ trợ đa luồng khá tốt mà cú pháp cũng không quá phức tạp, đồng thời có vài thư viện mà mình tối thiểu cần có như RabbitMQ, API để giao tiếp với các service khác (mấy cái của C/C++ nó không có hoặc nhiều issues). Mất hơn 5 tháng để convert hết code xử lý mình cần sang Rust nhưng kết quả nó cũng đáng: hiệu năng gấp tầm 25-30 lần mà RAM chỉ dùng chưa đến 1/10 so với Java, CPU thi thoảng nhảy nhót vài giây xong là thôi.