PC Android So sánh kết quả OCR giữa Google Drive và Vflat

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 28/3/22.

  1. xversion1

    xversion1 Lớp 3

    Vậy à, em tưởng nó dùng tài nguyên điện thoại để ORC thì yếu lắm. Chạy ABBYY file đẹp trên máy tính mà file nặng 1 tý đã đơ máy rồi huống chi trên điện thoại.
    Bác giới thiệu phần mềm giả lập nào free ổn định đc không? Trước em cũng thử mấy loại nhưng nói chung nó cứ lag kiểu gì ấy với lại có vẻ ko ổn định.
     
  2. vinaguy

    vinaguy Lớp 11

    Em trước đây xài qua mấy app nhưng không thấy cái nào ổn bằng BlueStack cả bác ạ. Cơ mà cũng hơn 2 năm nay em không xài app giả lập này nữa, do máy điện thoại mới nó chạy ù ù rồi.
     
    machine and xversion1 like this.
  3. tran ngoc anh

    tran ngoc anh Cử nhân

    Cài luôn Bliss vào máy tính xài luôn sướng. Đó là một dạng Android dành cho hệ thống x86, hay nói cách khác là Android có thể chạy được trên PC, và đang ở phiên bản Android 12 luôn.
     
    machine and vinaguy like this.
  4. vinaguy

    vinaguy Lớp 11

    Chỉ xài cho x86 à bác? Chết thiệt... từ lâu lắm tất cả các máy ở chỗ làm cũng như ở nhà của em toàn xài x64. Lãng quên mất x32 rồi.
     
  5. tran ngoc anh

    tran ngoc anh Cử nhân

    Bác chưa từng thấy Win 32bit chạy trên hệ thống 64bit à và ngay cả phần mềm 32bit vẫn chạy ầm ầm trong bản Win 64bit hàng ngày đó thôi.
     
  6. vinaguy

    vinaguy Lớp 11

    U là trời!... phá quá mà bỉu... nó cứ bất ổn rồi chả mấy chốc... :)
     
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Ơ hay. Phá gì bác? Hệ thống tương thích ngược với phần mềm cũ là việc cơ bản của thế giới phần mềm, em đã làm gì nó đâu mà bác bảo em phá? Lập trình viên người ta viết ra một hệ điều hành 32bit vẫn chạy được trên hệ thống mới hơn 64bit là cái chuyện bắt buộc và hiển nhiên rồi. Trước khi em biết về nó thì đã có hàng triệu máy tính 64bit chạy win 32bit mà em có liên quan gì đến cuộc tình đó đâu
     
  8. xversion1

    xversion1 Lớp 3

    Cài xong chạy được các app android ko bác? Để thử máy ảo xem sao, vào trang chủ mà ko thấy screenshot chạy trên xem PC thế nào, toàn màn dọc điện thoại.
     
  9. tran ngoc anh

    tran ngoc anh Cử nhân

    Nó là Android mà không chạy được apk thì chạy cái gì giờ bạn
     
  10. xversion1

    xversion1 Lớp 3

    Mà nó có Bliss OS với Android Generic thì nên chọn cái nào bác, có gì khác nhau không?
     
  11. tran ngoc anh

    tran ngoc anh Cử nhân

    Chọn cái x86 nè bạn. Cái Android Generic đó chỉ là Bliss bản 11 thôi chắc là cũ hơn rồi, mình chọn Bliss 14 hoặc 15 mới nhất sẽ êm hơn, Android 12 nhiều cải tiến hơn.
    upload_2022-3-31_11-37-17.png
     
    machine and xversion1 like this.
  12. vinaguy

    vinaguy Lớp 11

    15 chả cho tải gì... cứ hỏi linh tinh hết cả lên bác ạ :) Bác tải được rồi thì ấp lên drive giúp em.
     
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Link gốc đây bác :D
    Vui lòng đăng nhập hoặc đăng ký để xem link
     
  14. vinaguy

    vinaguy Lớp 11

    Ủa chớ... em lỡ cài 14 rồi, giờ đợi nó cài xong rồi gỡ vứt hé bác? :)
    P/S: Cơ mà cái 14 nó còn bảo x86/x64. Còn cái 15 nó chỉ bảo x86... không biết rồi nó có chịu chơi với 64 không nữa. Cái 15 bé hơn cái 14 tới 100mb
     
  15. xversion1

    xversion1 Lớp 3

    Dùng vflat OCR ra text nó có đủ cả header, số trang các kiểu luôn, xóa mỏi tay ko xong, có cách nào xử lý luôn hoặc có cái kiểu gì crop hàng loạt ko các bác?
    Còn xuất luôn PDF, em thử sách 500 trang mà xuất PDF ra file hơn 400MB, có cách nào cho gọn nhẹ hơn ko nhỉ, file này cho vào máy đọc sách chắc load mất nguyên ngày quá. :v
    Mà nó chỉ cho scan 100 trang.
     
    Chỉnh sửa cuối: 4/4/22
    vinaguy and tran ngoc anh like this.
  16. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình gợi ý cách xử lý như sau:

    - Chụp bằng Vflat, xuất ảnh jpg, đưa vào abbyy crop hàng loạt, cho ảnh trở lại Vflat OCR -> Text

    - Chụp bằng Vflat, xuất ảnh jpg, dùng cách tẩy trắng Vui lòng đăng nhập hoặc đăng ký để xem link, combine số png vừa có được bằng acrobat, nén luôn bằng acrobat theo Vui lòng đăng nhập hoặc đăng ký để xem link -> file PDF nhẹ.
     
    machine, vinaguy and xversion1 like this.
  17. vinaguy

    vinaguy Lớp 11

    OCR bằng vFlat thì nó sẽ có header và footer. Ngọc Anh đã có cách làm nói ở trên. Còn em thì thường em cứ để thế để yên đó, lúc soát lỗi em tìm số trang cho dễ bác ạ.
    Còn nếu thích xóa thì em lại làm kiểu này nè: Em xử lý nó ngay trong pdf luôn đó bác. Em chèn 1 cái textbox màu trắng và không có viền ngay trên cái header và footer của trang sách (rộng bằng chiều rộng của trang giấy luôn). Vẽ 1 lần rồi copy và cứ thế tua trang và paste. Máy nó sẽ paste đúng ngay vị trí lúc nãy bác vẽ luôn nên không cần phải quan tâm gì... chỉ là che chữ đi mà. Em hy vọng cách này sẽ giúp bác đỡ thời gian hơn.
     
    machine and xversion1 like this.
  18. xversion1

    xversion1 Lớp 3

    Đã làm nhẹ được, tẩy trắng xong dung lượng file ảnh giảm 10 lần, em ko dùng Acrobat mà dùng GIMP export ra PDF (ko có option gì để chỉnh sửa thông số nén nủng các kiểu) thì đc file khoảng 80MB, giảm 5 lần so với lúc trước.
    Vì em dùng Linux, muốn làm cả trên Linux nên ko muốn chuyển sang Win chạy Acrobat với Finereader (Finereader thuốc lại đang lỗi ko chạy ko hiểu sao). Không biết có cách nào để crop hàng loạt, deskew tự động hàng loạt trên Linux không? Ngồi tìm trong diễn đàn thấy có bác dùng unpaper mà cái unpaper này phải convert qua lại mắc công quá, file convert xong lại nặng kinh người, mà cái chính là cuối cùng em dùng cái này vẫn bị lỗi ko có thành công.
     
    Chỉnh sửa cuối: 5/4/22
  19. xversion1

    xversion1 Lớp 3

    Hình như cách này cũng hơi mât thời gian mà bác, paste thủ công hơn 500 trang cả trên lẫn dưới tưởng tượng đã thấy hơi mỏi tay.
     
  20. iamtnl

    iamtnl Lớp 4

    về việc xử lý header/footer. ngoài các cách cắt/crop thì có thể xử lý sau khi OCR.

    với các header/footer dùng font cơ bản: xác định pattern chung, dùng regex để xóa. ví dụ pattern là bắt đầu/kết thúc bằng chữ số, tên của sách, tên của chương... và vì header/footer font nhỏ, OCR độ chính xác không cao nên các chữ cái có dấu nên thay bằng ký tự .

    với header/footer hoa lá cành, thường sẽ không OCR, hoặc OCR ra chữ giun dế. thì có 1 cách rất hay, đó là dùng regex xóa toàn bộ các dòng không có chữ cái tiếng Việt. cách này rất hiệu quả để xóa rác trong file sau khi OCR, tuy nhiên đôi khi sẽ gặp phải các dòng bị xóa kiểu như sao?, a!!!, hoặc là các dòng tiếng Anh–-không phải là vấn đề lớn đối với các sách tiếng Việt, và gõ lại các dòng như thế sẽ đỡ mất công hơn nhiều so với việc xóa các dòng rác.
     
    machine and xversion1 like this.

Chia sẻ trang này