PC Android So sánh kết quả OCR giữa Google Drive và Vflat

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 28/3/22.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Hôm nay mình lại tiếp tục sân si và đem hai em này ra làm một phép so sánh nhỏ bằng 2 trang đã được xử lý trắng đẹp, tức là loại bỏ sức mạnh xử lý ảnh của Vflat, một lợi thế khá lớn.

    Điều kiện so sánh là chỉ so sức mạnh OCR, tức cả hai sẽ có cùng một điều kiện ảnh đầu vào. Một bên là 2 phiên bản Vflat trên 2 máy Android bao gồm bản 0.9.23 trên Xperia 1 và bản 0.9.76 mới nhất trên Mi 8 Lite. Bên còn lại là đại diện từ phía Google là Vui lòng đăng nhập hoặc đăng ký để xem link trên Laptop HP Probook với vi xử lý Intel core i5.

    Xin được giải thích một chút về bản 0.9.23, lý do là máy Sony đã root nên không tìm thấy Vflat trên Play Store, nên đành đi đường vòng là tải apk, song công cụ Vui lòng đăng nhập hoặc đăng ký để xem link lại chỉ tải xuống được bản 0.9.23 mà thôi.

    Trớ trêu thêm là bản mới nhất 0.9.76 trên máy Mi 8 Lite được trích xuất đem apk qua Xperia 1 cài thì lại không tương thích. Mình đoán là vì VoyagerX sẽ hạn chế không cho bản mới nhất của họ hoạt động trên một thiết bị Android đã root.

    Dù sao thì có thêm một bản khác của Vflat để so sánh với chính nó thì cũng tốt, sẽ nhìn thấy được sự phát triển của em nó.

    Sau khi cho 3 đại diện phía trên chạy với 2 trang ảnh nguồn (png trắng đen, 600dpi) đã được đính kèm bên dưới, dùng công cụ compare của Notepad++ để so sánh khác nhau giữa các bản txt kết quả:

    1. Giữa hai phiên bản Vflat:

    [​IMG]

    -> Chỉ khác nhau một điểm, và bản mới nhất thì đúng chính tả còn bản cũ hơn thì "vẫn đúng chính tả tiếng Việt" nhưng tự em ấy thay thế chữ gốc là chữ "vài" thành chữ "loài". Khá lệch ^_^

    2. Giữa Drive và Vflat 0.9.76 (đại diện mới nhất và chính xác hơn bản Vflat trước về kết quả OCR)

    [​IMG]

    [​IMG]

    -> Drive có nhiều ký tự lạ, như thêm dấu gạch đứng và gạch dưới, ở những dòng trống không có thông tin thì cũng có vài ký tự rời rạc không có ý nghĩa gì, ít nhất thì đây là điểm không đáng lo ngại vì rất dễ dàng xóa bỏ bằng regex và ít gây ảnh hưởng đến sự chính xác của các đoạn văn.

    -> Vflat vẫn sai chính tả, đoán từ hơi lệch lạc tí, chưa kể một lỗi trí mạng là dịch chuyển vị trí của từ hoặc cụm từ như đã được đánh dấu bằng mũi tên trong minh họa. Việc này ảnh hưởng nghiêm trọng đến nội dung của đoạn văn. Mình cố tình chọn 1 trang có đậm nghiêng và một trang chữ bình thường (xem ảnh nguồn đính kèm), và kết quả Vflat xử lý khá rườm rà ở cả hai trang chứ không chỉ mắc lỗi chỉ ở trang có định dạng nghiêng khó xử lý.

    Tóm lại Vflat vẫn chưa đáng tin, mình không thể chấp nhận được vị trí cụm từ bị di dời như thế, khi soát sẽ khó phát hiện và dễ bị bỏ sót.

    Tuy nhiên dùng Drive thì vẫn phải chịu khó xử lý text, ít nhất là xóa mấy cái ký tự vô nghĩa như gạch dưới và gạch đứng, đặc biệt gạch đứng là đặc sản của em này ^^

    Đây là kết quả so sánh trên điều kiện thiết bị của mình, với các file đính kèm bên dưới là nguồn tham khảo cho bài viết. Các bạn có thể tự tay thực hiện lại bài test bằng nguồn ảnh của các bạn để có thêm một phép so sánh ở nhiều điều kiện ảnh nguồn khác nữa. Chắc chắn với ảnh nguồn xấu, nếu Vflat thể hiện hết sức mạnh xử lý ảnh, Drive thì không có gì để xử lý ảnh cả, thì Vflat sẽ nhỉnh hơn nhiều.

    Bonus một chút sân si với Abbyy, Drive hiện tại đã vô cùng bá đạo khi xuất với định dạng docx thì độ chính xác khá ổn, chính tả thì các bạn biết rồi đó. Và file 64.docx bên dưới để các bạn tham khảo. Như vậy hoàn toàn có thể dùng Drive để OCR ra định dạng docx với nghiêng đậm thay vì dùng Abbyy, mà chính tả thì có thể nói nhỉnh hơn Abbyy một chút nữa.

    Hiện tại Drive là lựa chọn ổn hơn ở cùng điều kiện ảnh nguồn.
     

    Các file đính kèm:

    Chỉnh sửa cuối: 28/3/22
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Vài lời thêm vào:

    Với sức mạnh OCR thuần túy thì như thế, nhưng một phần mềm không chỉ có mỗi OCR, và chúng ta cũng có muôn kiểu ảnh nguồn chứ không tự dưng có sẵn ảnh trắng đẹp như điều kiện của bài test.

    Cho nên về phía Vflat có lợi thế là sức mạnh xử lý ảnh, Abbyy còn bá đạo hơn khi bây giờ có thể edit cả pdf và xử lý ảnh khá chuyên nghiệp, phần này thì Drive gần như không có cửa nào và không có gì để so sánh được.

    Mình chủ trương dùng phần mềm thì phải kết hợp các ưu điểm, tội gì mà yêu ghét mà chỉ chọn 1. Mình rất ấn tượng với khả năng xử lý các ảnh nghiêng méo của Vflat, cực kỳ là ấn tượng, các trang chụp méo mó một cách kinh khủng đưa cho Vflat xử lý phải nói là rất đẹp, mà nếu dùng Abbyy chỉnh thủ công thì vất vả gấp ngàn lần.

    Như thế tùy vào cách sử dụng mà các bạn sẽ linh hoạt trong việc chọn nhà gia công nào cho công đoạn nào hay bộ phận nào, cũng y như Apple đưa cho TSMC gia công con chip còn màn hình Amoled thì đưa cho Samsung vậy.

    Thân ^_^
     
  3. iamtnl

    iamtnl Lớp 3

    Chụp sách bằng VFlat (sử dụng tính năng auto), export ra máy tính và OCR bằng Drive. Chưa đến 1h là xong 1 quyển tầm 500tr.
     
  4. jun276

    jun276 Lớp 3

    vFlat tiến bộ thật, 2020 dù nhận diện khá tốt nhưng chụp xấu òm mà giờ đẹp dã man. Phải cái ko chia thành các tệp con được mà bung hết ra ngoài.
     
    vinaguy and tran ngoc anh like this.
  5. vinaguy

    vinaguy Lớp 6

    Em cũng đú theo bác so sánh tí. Kết quả của em như sau:
    File ảnh chụp được đính kèm dưới đây:
    upload_2022-3-28_14-35-44.png
    1. vFlat: 8 lỗi và 1 hàng
    upload_2022-3-28_14-30-52.png
    2. Google Lens: 9 lỗi và 1 hàng
    upload_2022-3-28_14-30-9.png
    3. Google Drive: 12 lỗi và 1 hàng
    upload_2022-3-28_14-32-47.png
     

    Các file đính kèm:

    • 66.jpg
      66.jpg
      Kích thước:
      152.9 KB
      Đọc:
      3
    tran ngoc anh thích bài này.
  6. tran ngoc anh

    tran ngoc anh Cử nhân

    Đây là bản text em lấy nhanh từ Google Lens trên Sony, hơi khác với bản text của Google Lens trên máy bác thì phải. Cho nên là bài test phía trên em đã cẩn thận ghi rõ thiết bị test.

    Mã:
    661
    
    BÀI KIỂM TRA THANG MÁY
    
    Hãy biểu giải pháp (bay sản phẩm, hoặc công việc kinh doanh) của mình thật thấu đào để có thể giải thích rõ ràng và chính xác cho khách hàng (hoặc nhà đầu tư) của bạn trong 30 giây. Nếu có thể làm được điều đó, thì biểu biết của bạn về công việc mình đang làm đủ để bạn có thể "bán" đi giải pháp của mình.
    
    Hãy hình dung rằng đã đến lúc thực hiện buổi đại thuyết trình tổng kết lại một dự án. Bạn và nhóm của mình đã thức đến 2 giờ sáng để tập hợp tất cả “quyển sách màu xanh da trời”, để đảm bảo rằng mỗi chữ i đều có dấu chấm trên đầu, hay mỗi chữ t đều phải có nét gạch ngang. Tất cả thành viên trong nhóm của bạn đều diện bộ veston sang nhất và cố gắng sao cho có về mặt thật tươi tỉnh, linh hoạt. Các vị quản lý cao cấp của công ty khách hàng trong Fortune 50 ngồi quanh bàn chăm chú lắng nghe từng lời của McKinsey trong căn phòng họp ở tầng cao nhất của tòa nhà chọc trời của công ty với một tâm trạng căng thẳng, ngọ ngoạy không yên. Đột nhiên CEO bước vào phòng, tuyên bố: “Xin lỗi mọi người. Tôi không thể tiếp tục lắng nghe được. Chúng ta đang gặp một cuộc khủng hoảng và tôi cần phải gặp các luật sư của chúng ta ngay lập tức.” Rồi ông ấy quay về phía bạn và nói: “Sao anh không cùng đi thang
    
    7 Một cách gọi loặc của các loại thi Nệu tuYẾT trình của BCKosy vì nó có bìa màu xanh da trời.
     
    Chỉnh sửa cuối: 28/3/22
    vinaguy thích bài này.
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Đã cài được apk bản 0.9.74 trên Sony và có một test nhanh trang (siêu mờ) trên như sau: ^=^

    Mã:
    BÀI KIỂM TRA THANG MÁY
    
    66
    
    Hày biểu giải pháp (bay sản phẩm, boặc công việc kinh doanh) của mình thật thấu đáo để có thể giải thích rõ ràng và chính xác cho khách hàng (hoặc nhà đầu tư) của bạn trong 30 giây. Nếu có thể làm được điều đó, thì biếu biết của bạn về Công việc mình đang làm đủ để bạn có thể "bán" đi giải pháp của mình.
    
    Hãy hình dung rằng đã đến lúc thực hiện buổi đại thuyết trình tổng kết lại một dự án. Bạn và nhóm của mình đã thúc đến 2 giờ sáng để tập hợp tất cả “quyển sách màu xanh da trời”, để đảm bảo rằng mỗi chữ i đều có dấu chấm trên đầu, hay mỗi chữ t đều phải có nét gạch ngang. Tất cả thành viên trong nhóm của bạn đều diện bộ veston sang nhất và cố gắng sao cho có vẻ mặt thật tươi tỉnh, linh hoạt. Các vị quản lý cao cấp của công ty khách hàng trong Fortune 50 ngồi quanh bàn chăm chú lắng nghe từng lời của McKinsey trong căn phòng họp ở tầng cao nhất của tòa nhà chọc trời của công ty với một tâm trạng căng thẳng, ngọ ngoạy không yên. Đột nhiên CEO bước vào phòng, tuyên bố: “Xin lỗi mọi người. Tôi không thể tiếp tục lắng nghe được. Chúng ta đang gặp một cuộc khủng hoảng và tôi cần phải gặp các luật sư của chúng ta ngay lập tức.” Rồi ông ấy quay về phía bạn và nói: “Sao anh không cùng đi thang
    
    Me cach go bhd cia odc Awal Add tour in cria McKinsey bland dam.
     
    Chỉnh sửa cuối: 28/3/22
  8. vinaguy

    vinaguy Lớp 6

    Có thể hơi khác hơn một chút... Thấy một vài từ ở hàng dưới cùng máy bác nó nhận ra. Còn máy em nó tào lao cả hàng. :)
     
  9. tran ngoc anh

    tran ngoc anh Cử nhân

    Với điều kiện ảnh mờ như của bác, bác giúp em kiểm tra thêm như sau:

    Chuyển cả 3 thành txt, dùng công cụ compare của Notepad++ để kiểm tra xem giữa hai bản Google Lens và Google Drive (cmd) khác nhau như nào, và giữa Vflat với Drive khác nhau như nào..

    Đặc biệt bác đừng quên tắt xử lý ảnh của Vflat đi nhé. Như đã trình bày mở đầu, chỉ nói về OCR, loại bỏ sức mạnh xử lý ảnh.
     
  10. vinaguy

    vinaguy Lớp 6

    Mấy thứ này em chưa vọc bao giờ... Hơi căng đây... :)
     
  11. iamtnl

    iamtnl Lớp 3

    cần phải so sánh với số lượng mẫu nhiều hơn, một trang thì chưa đủ để kết luận. và đã so sánh thì phải theo cùng 1 tiêu chuẩn là số chữ sai. ví dụ như trang kia 1 dòng sai nhưng Drive vẫn nhận diện được 30% số chữ, còn 2 ông còn lại bịa hết.

    có thể làm bài so sánh chữ nghiêng riêng. vì các font nghiêng cho kết quả OCR cực kỳ tệ.

    ngoài ra cũng cần phải xét về tính "có hệ thống" của các lỗi. ví dụ như các lỗi nhận diện viết hoa chữ C có thể sửa được bằng regex.

    và cuối cùng xét trên quan điểm làm ebook thì cần phải tính đến độ nhanh. tính từ khi chụp hình đến khi ra text.
     
    tran ngoc anh thích bài này.
  12. Depressed

    Depressed Lớp 5

    Sao mọi người hay khen Abbyy mà tôi dùng lại thấy nó khác hoàn toàn thế nhỉ. Thấy nó lỗi tùm lum so với dùng Adobe Acrobat DC thì cái này ngon hơn mà mất tiền hàng tháng với không thấy nó copy ra được toàn lỗi font chữ.
     
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Abbyy với Acrobat hơi khác nhau về đối tượng sử dụng mà ^^
     
  14. tran ngoc anh

    tran ngoc anh Cử nhân

    Sẽ có một bài chi tiết hơn theo những tiêu chí mà bác gợi ý.
     
    vinaguy thích bài này.
  15. vinaguy

    vinaguy Lớp 6

    Bác cứ so sánh tợn vào dùm bọn em... để tìm được cái tối ưu hiện tại mà làm cho nó chuẩn. Chứ làm mà lỗi nhiều sửa oải lắm bác êi.
     
  16. xversion1

    xversion1 Lớp 1

    Tiện các bác cho hỏi app nào scan sách và app nào OCR ngon nhất vậy? Từ trước đến nay chụp sách em chỉ tiện điện thoại có sẵn cái gì sẽ dùng luôn cái đấy, lúc thì MS Office, lúc thì scan mặc định của Xiaomi, v.v., hôm nay mới biết Google và Vflat. Về OCR cũng vậy, hoặc dùng luôn của Office, hoặc của Acrobat, nhưng dùng nhiều nhất là ABBYY (tiện thể hỏi luôn bản ABBYY của em dùng nhiều năm chắc cũng lỗi thời, bác nào có thông tin bản mới nhất thuốc men đầy đủ an toàn không?). :p
     
  17. tran ngoc anh

    tran ngoc anh Cử nhân


    Chụp ngay và luôn trên phone thì Vflat đang rất được ưa chuộng vì ngon bổ rẻ.

    OCR thì nó cũng đang top đầu. 1 trong 2, hoặc 3 app ngon nhất.

    Mình nhớ Acrobat chỉ OCR được tiếng Anh thôi mà đúng không? Còn về Abbyy thì vẫn luôn đáng tin cậy vì ngoài việc nhiều lỗi hơn các engine khác một chút thì ưu điểm vượt trội là cấu trúc trang. Abbyy giữ nguyên cấu trúc trang và chúng ta có thể số hoá PDF scan ra true text hoặc docx với chính xác số chữ trên một hàng, số hàng trên một trang như bản scan gốc.
     
    xversion1 and vinaguy like this.
  18. xversion1

    xversion1 Lớp 1

    Vừa thử cũng ngon nhưng chỉ có app điện thoại, chạy OCR lại phụ thuộc cấu hình điện thoại thì hơi hạn chế. Em toàn dùng máy đểu cho rẻ.
     
  19. tran ngoc anh

    tran ngoc anh Cử nhân

    Không bạn ơi, chỉ khi xử lý ảnh thì Vflat mới dùng xử lý của điện thoại, OCR thì là việc của máy chủ. Khi bạn nhập ảnh vào Vflat thì không chọn xử lý ảnh ấy. Còn nếu chụp trực tiếp, thì chụp xong cũng đã xử lý ảnh xong, OCR sau đó cũng nhanh hơn nhiều rồi.
     
    xversion1 thích bài này.
  20. vinaguy

    vinaguy Lớp 6

    Nếu bác không thích dùng trên điện thoại mà thích dùng trên máy tính thì bác xài phần mềm giả lập Android trên máy tính và cài vFlat vào mà dùng trên máy tính.
     
    xversion1 thích bài này.

Chia sẻ trang này