Đăng nhập

PC Android So sánh kết quả OCR giữa Google Drive và Vflat

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 28/3/22.

Trang 2 của 3 trang

xversion1 Lớp 3

tran ngoc anh nói: ↑

Không bạn ơi, chỉ khi xử lý ảnh thì Vflat mới dùng xử lý của điện thoại, OCR thì là việc của máy chủ. Khi bạn nhập ảnh vào Vflat thì không chọn xử lý ảnh ấy. Còn nếu chụp trực tiếp, thì chụp xong cũng đã xử lý ảnh xong, OCR sau đó cũng nhanh hơn nhiều rồi.
Click to expand...

Vậy à, em tưởng nó dùng tài nguyên điện thoại để ORC thì yếu lắm. Chạy ABBYY file đẹp trên máy tính mà file nặng 1 tý đã đơ máy rồi huống chi trên điện thoại.

vinaguy nói: ↑

Nếu bác không thích dùng trên điện thoại mà thích dùng trên máy tính thì bác xài phần mềm giả lập Android trên máy tính và cài vFlat vào mà dùng trên máy tính.
Click to expand...

Bác giới thiệu phần mềm giả lập nào free ổn định đc không? Trước em cũng thử mấy loại nhưng nói chung nó cứ lag kiểu gì ấy với lại có vẻ ko ổn định.

xversion1, 31/3/22

#21
vinaguy Lớp 11

xversion1 nói: ↑

Bác giới thiệu phần mềm giả lập nào free ổn định đc không? Trước em cũng thử mấy loại nhưng nói chung nó cứ lag kiểu gì ấy với lại có vẻ ko ổn định.
Click to expand...

Em trước đây xài qua mấy app nhưng không thấy cái nào ổn bằng BlueStack cả bác ạ. Cơ mà cũng hơn 2 năm nay em không xài app giả lập này nữa, do máy điện thoại mới nó chạy ù ù rồi.

vinaguy, 31/3/22

#22

machine and xversion1 like this.
tran ngoc anh Cử nhân

Cài luôn Bliss vào máy tính xài luôn sướng. Đó là một dạng Android dành cho hệ thống x86, hay nói cách khác là Android có thể chạy được trên PC, và đang ở phiên bản Android 12 luôn.

tran ngoc anh, 31/3/22

#23

machine and vinaguy like this.
vinaguy Lớp 11

tran ngoc anh nói: ↑

Cài luôn Bliss vào máy tính xài luôn sướng. Đó là một dạng Android dành cho hệ thống x86, hay nói cách khác là Android có thể chạy được trên PC, và đang ở phiên bản Android 12 luôn.
Click to expand...

Chỉ xài cho x86 à bác? Chết thiệt... từ lâu lắm tất cả các máy ở chỗ làm cũng như ở nhà của em toàn xài x64. Lãng quên mất x32 rồi.

vinaguy, 31/3/22

#24
tran ngoc anh Cử nhân

vinaguy nói: ↑

Chỉ xài cho x86 à bác? Chết thiệt... từ lâu lắm tất cả các máy ở chỗ làm cũng như ở nhà của em toàn xài x64. Lãng quên mất x32 rồi.
Click to expand...

Bác chưa từng thấy Win 32bit chạy trên hệ thống 64bit à và ngay cả phần mềm 32bit vẫn chạy ầm ầm trong bản Win 64bit hàng ngày đó thôi.

tran ngoc anh, 31/3/22

#25
vinaguy Lớp 11

tran ngoc anh nói: ↑

Bác chưa từng thấy Win 32bit chạy trên hệ thống 64bit à
Click to expand...

U là trời!... phá quá mà bỉu... nó cứ bất ổn rồi chả mấy chốc...

vinaguy, 31/3/22

#26
tran ngoc anh Cử nhân

vinaguy nói: ↑

U là trời!... phá quá mà bỉu... nó cứ bất ổn rồi chả mấy chốc...
Click to expand...

Ơ hay. Phá gì bác? Hệ thống tương thích ngược với phần mềm cũ là việc cơ bản của thế giới phần mềm, em đã làm gì nó đâu mà bác bảo em phá? Lập trình viên người ta viết ra một hệ điều hành 32bit vẫn chạy được trên hệ thống mới hơn 64bit là cái chuyện bắt buộc và hiển nhiên rồi. Trước khi em biết về nó thì đã có hàng triệu máy tính 64bit chạy win 32bit mà em có liên quan gì đến cuộc tình đó đâu

tran ngoc anh, 31/3/22

#27
xversion1 Lớp 3

tran ngoc anh nói: ↑

Cài luôn Bliss vào máy tính xài luôn sướng. Đó là một dạng Android dành cho hệ thống x86, hay nói cách khác là Android có thể chạy được trên PC, và đang ở phiên bản Android 12 luôn.
Click to expand...

Cài xong chạy được các app android ko bác? Để thử máy ảo xem sao, vào trang chủ mà ko thấy screenshot chạy trên xem PC thế nào, toàn màn dọc điện thoại.

xversion1, 31/3/22

#28
tran ngoc anh Cử nhân

xversion1 nói: ↑

Cài xong chạy được các app android ko bác? Để thử máy ảo xem sao, vào trang chủ mà ko thấy screenshot chạy trên xem PC thế nào, toàn màn dọc điện thoại.
Click to expand...

Nó là Android mà không chạy được apk thì chạy cái gì giờ bạn

tran ngoc anh, 31/3/22

#29
xversion1 Lớp 3

tran ngoc anh nói: ↑

Nó là Android mà không chạy được apk thì chạy cái gì giờ bạn
Click to expand...

Mà nó có Bliss OS với Android Generic thì nên chọn cái nào bác, có gì khác nhau không?

xversion1, 31/3/22

#30
tran ngoc anh Cử nhân

xversion1 nói: ↑

Mà nó có Bliss OS với Android Generic thì nên chọn cái nào bác, có gì khác nhau không?
Click to expand...

Chọn cái x86 nè bạn. Cái Android Generic đó chỉ là Bliss bản 11 thôi chắc là cũ hơn rồi, mình chọn Bliss 14 hoặc 15 mới nhất sẽ êm hơn, Android 12 nhiều cải tiến hơn.

tran ngoc anh, 31/3/22

#31

machine and xversion1 like this.
vinaguy Lớp 11

tran ngoc anh nói: ↑

15 mới nhất sẽ êm hơn
Click to expand...

15 chả cho tải gì... cứ hỏi linh tinh hết cả lên bác ạ Bác tải được rồi thì ấp lên drive giúp em.

vinaguy, 31/3/22

#32
tran ngoc anh Cử nhân

vinaguy nói: ↑

15 chả cho tải gì... cứ hỏi linh tinh hết cả lên bác ạ Bác tải được rồi thì ấp lên drive giúp em.
Click to expand...

Link gốc đây bác
Vui lòng đăng nhập hoặc đăng ký để xem link

tran ngoc anh, 31/3/22

#33
vinaguy Lớp 11

tran ngoc anh nói: ↑

Link gốc đây bác
Click to expand...

Ủa chớ... em lỡ cài 14 rồi, giờ đợi nó cài xong rồi gỡ vứt hé bác?
P/S: Cơ mà cái 14 nó còn bảo x86/x64. Còn cái 15 nó chỉ bảo x86... không biết rồi nó có chịu chơi với 64 không nữa. Cái 15 bé hơn cái 14 tới 100mb

vinaguy, 31/3/22

#34
xversion1 Lớp 3

Dùng vflat OCR ra text nó có đủ cả header, số trang các kiểu luôn, xóa mỏi tay ko xong, có cách nào xử lý luôn hoặc có cái kiểu gì crop hàng loạt ko các bác?
Còn xuất luôn PDF, em thử sách 500 trang mà xuất PDF ra file hơn 400MB, có cách nào cho gọn nhẹ hơn ko nhỉ, file này cho vào máy đọc sách chắc load mất nguyên ngày quá. :v
Mà nó chỉ cho scan 100 trang.

Chỉnh sửa cuối: 4/4/22

xversion1, 4/4/22

#35

vinaguy and tran ngoc anh like this.
tran ngoc anh Cử nhân

xversion1 nói: ↑

Dùng vflat OCR ra text nó có đủ cả header, số trang các kiểu luôn, xóa mỏi tay ko xong, có cách nào xử lý luôn hoặc có cái kiểu gì crop hàng loạt ko các bác?
Còn xuất luôn PDF, em thử sách 500 trang mà xuất PDF ra file hơn 400MB, có cách nào cho gọn nhẹ hơn ko nhỉ, file này cho vào máy đọc sách chắc load mất nguyên ngày quá. :v
Mà nó chỉ cho scan 100 trang.
Click to expand...

Mình gợi ý cách xử lý như sau:

- Chụp bằng Vflat, xuất ảnh jpg, đưa vào abbyy crop hàng loạt, cho ảnh trở lại Vflat OCR -> Text

- Chụp bằng Vflat, xuất ảnh jpg, dùng cách tẩy trắng Vui lòng đăng nhập hoặc đăng ký để xem link, combine số png vừa có được bằng acrobat, nén luôn bằng acrobat theo Vui lòng đăng nhập hoặc đăng ký để xem link -> file PDF nhẹ.

tran ngoc anh, 4/4/22

#36

machine, vinaguy and xversion1 like this.
vinaguy Lớp 11

xversion1 nói: ↑

Dùng vflat OCR ra text nó có đủ cả header, số trang các kiểu luôn, xóa mỏi tay ko xong, có cách nào xử lý luôn hoặc có cái kiểu gì crop hàng loạt ko các bác?
Click to expand...

OCR bằng vFlat thì nó sẽ có header và footer. Ngọc Anh đã có cách làm nói ở trên. Còn em thì thường em cứ để thế để yên đó, lúc soát lỗi em tìm số trang cho dễ bác ạ.
Còn nếu thích xóa thì em lại làm kiểu này nè: Em xử lý nó ngay trong pdf luôn đó bác. Em chèn 1 cái textbox màu trắng và không có viền ngay trên cái header và footer của trang sách (rộng bằng chiều rộng của trang giấy luôn). Vẽ 1 lần rồi copy và cứ thế tua trang và paste. Máy nó sẽ paste đúng ngay vị trí lúc nãy bác vẽ luôn nên không cần phải quan tâm gì... chỉ là che chữ đi mà. Em hy vọng cách này sẽ giúp bác đỡ thời gian hơn.

vinaguy, 5/4/22

#37

machine and xversion1 like this.
xversion1 Lớp 3

tran ngoc anh nói: ↑

Mình gợi ý cách xử lý như sau:

- Chụp bằng Vflat, xuất ảnh jpg, đưa vào abbyy crop hàng loạt, cho ảnh trở lại Vflat OCR -> Text

- Chụp bằng Vflat, xuất ảnh jpg, dùng cách tẩy trắng Vui lòng đăng nhập hoặc đăng ký để xem link, combine số png vừa có được bằng acrobat, nén luôn bằng acrobat theo Vui lòng đăng nhập hoặc đăng ký để xem link -> file PDF nhẹ.
Click to expand...

Đã làm nhẹ được, tẩy trắng xong dung lượng file ảnh giảm 10 lần, em ko dùng Acrobat mà dùng GIMP export ra PDF (ko có option gì để chỉnh sửa thông số nén nủng các kiểu) thì đc file khoảng 80MB, giảm 5 lần so với lúc trước.
Vì em dùng Linux, muốn làm cả trên Linux nên ko muốn chuyển sang Win chạy Acrobat với Finereader (Finereader thuốc lại đang lỗi ko chạy ko hiểu sao). Không biết có cách nào để crop hàng loạt, deskew tự động hàng loạt trên Linux không? Ngồi tìm trong diễn đàn thấy có bác dùng unpaper mà cái unpaper này phải convert qua lại mắc công quá, file convert xong lại nặng kinh người, mà cái chính là cuối cùng em dùng cái này vẫn bị lỗi ko có thành công.

Chỉnh sửa cuối: 5/4/22

xversion1, 5/4/22

#38
xversion1 Lớp 3

vinaguy nói: ↑

OCR bằng vFlat thì nó sẽ có header và footer. Ngọc Anh đã có cách làm nói ở trên. Còn em thì thường em cứ để thế để yên đó, lúc soát lỗi em tìm số trang cho dễ bác ạ.
Còn nếu thích xóa thì em lại làm kiểu này nè: Em xử lý nó ngay trong pdf luôn đó bác. Em chèn 1 cái textbox màu trắng và không có viền ngay trên cái header và footer của trang sách (rộng bằng chiều rộng của trang giấy luôn). Vẽ 1 lần rồi copy và cứ thế tua trang và paste. Máy nó sẽ paste đúng ngay vị trí lúc nãy bác vẽ luôn nên không cần phải quan tâm gì... chỉ là che chữ đi mà. Em hy vọng cách này sẽ giúp bác đỡ thời gian hơn.
Click to expand...

Hình như cách này cũng hơi mât thời gian mà bác, paste thủ công hơn 500 trang cả trên lẫn dưới tưởng tượng đã thấy hơi mỏi tay.

xversion1, 5/4/22

#39
iamtnl Lớp 4

về việc xử lý header/footer. ngoài các cách cắt/crop thì có thể xử lý sau khi OCR.

với các header/footer dùng font cơ bản: xác định pattern chung, dùng regex để xóa. ví dụ pattern là bắt đầu/kết thúc bằng chữ số, tên của sách, tên của chương... và vì header/footer font nhỏ, OCR độ chính xác không cao nên các chữ cái có dấu nên thay bằng ký tự .

với header/footer hoa lá cành, thường sẽ không OCR, hoặc OCR ra chữ giun dế. thì có 1 cách rất hay, đó là dùng regex xóa toàn bộ các dòng không có chữ cái tiếng Việt. cách này rất hiệu quả để xóa rác trong file sau khi OCR, tuy nhiên đôi khi sẽ gặp phải các dòng bị xóa kiểu như sao?, a!!!, hoặc là các dòng tiếng Anh–-không phải là vấn đề lớn đối với các sách tiếng Việt, và gõ lại các dòng như thế sẽ đỡ mất công hơn nhiều so với việc xóa các dòng rác.

iamtnl, 5/4/22

#40

machine and xversion1 like this.

(Bạn phải Đăng nhập hoặc Đăng ký để trả lời bài viết.)

Trang 2 của 3 trang

Chia sẻ trang này