Hỏi đáp Chỉnh sửa sách scan

bamagachu · 14/11/20

Tôi chuyển sách scan PDF thành văn bản nhưng file gốc có nhiều chỗ như bị "ghẻ" nên phần mềm ABBYY nhận diện sai rất nhiều. Ai có kinh nghiệm xin chỉ giúp có cách nào chỉnh sửa hàng loạt các trang để không phải làm thủ công không ạ. Chân thành cảm ơn!

iamtnl · 16/11/20

bác quăng file em xử lý giúp xem

bamagachu · 17/11/20

iamtnl nói: ↑

bác quăng file em xử lý giúp xem
Click to expand...

Cảm ơn bạn, vì số lượng khá nhiều nên không thể nhờ làm giúp mà chỉ có thể nhờ chỉ giúp giải pháp thôi. Đây là một số trang trong cuốn sách mình đang dự định chuyển qua Word Vui lòng đăng nhập hoặc đăng ký để xem link
Hiện tại mình đang tìm hiểu cách xóa "ghẻ" hàng loạt bằng photoshop. Chưa thực hiện nên không biết có được không.

Dr. No · 17/11/20

bamagachu nói: ↑

Cảm ơn bạn, vì số lượng khá nhiều nên không thể nhờ làm giúp mà chỉ có thể nhờ chỉ giúp giải pháp thôi. Đây là một số trang trong cuốn sách mình đang dự định chuyển qua Word Vui lòng đăng nhập hoặc đăng ký để xem link
Hiện tại mình đang tìm hiểu cách xóa "ghẻ" hàng loạt bằng photoshop. Chưa thực hiện nên không biết có được không.
Click to expand...

Với font chữ này thì rất khó để OCR ra kết quả có độ chính xác cao.

iamtnl · 17/11/20

Đây là file đã được denoise. Công cụ sử dụng là noisecleaner với tham số -m 1 -n 50.

Vui lòng đăng nhập hoặc đăng ký để xem link

iamtnl · 17/11/20

Đây là file ocr sử dụng Google Drive engine. Kết quả nhìn chung là chấp nhận được đối với ảnh gốc chất lượng thấp như thế này. Dù sao soát và sửa lại cũng sẽ nhanh hơn là gõ lại từ đầu

jun276 · 17/11/20

Ảnh chất lượng kém và sách cũ thì dùng Google, vFlat nhận chữ sẽ tốt hơn ABBYY.

V/C · 17/11/20

Sách cũ mà chụp thì nó ra text tốt hơn scan nhiều.

bamagachu · 17/11/20

Cảm ơn các bạn đã giúp. Làm việc một mình vừa đọc vừa gõ văn bản quả thật rất mệt, chuyện đọc nhầm và gõ nhầm xảy ra thường xuyên.

Dr. No · 17/11/20

jun276 nói: ↑

Ảnh chất lượng kém và sách cũ thì dùng Google, vFlat nhận chữ sẽ tốt hơn ABBYY.
Click to expand...

Phía trên kia tôi OCR bằng Camscanner đấy: import file pdf, rồi ocr từng trang, rồi copy từng trang sang google docs. Nhược điểm của Camscanner là bị lỗi xuống dòng không đúng chỗ.

machine · 17/11/20

iamtnl nói: ↑

Đây là file đã được denoise. Công cụ sử dụng là noisecleaner với tham số -m 1 -n 50.

Vui lòng đăng nhập hoặc đăng ký để xem link
Click to expand...

Bạn có thể cho link nào có sẵn phần mềm mà người không biết lập trình dùng được không?
Cảm ơn bạn.

welcom1985 · 17/11/20

tôi xin đóng góp 1 phần mềm :irfanview . Ngoài việc hỗ trợ xem hình ảnh, chương trình còn có hỗ trợ "xử lý hàng loạt", đối với hình, pdf ...
Các chức năng chính của xử lý hàng loạt: crop hình, chỉnh màu, đổi tên, giảm noise, ...v.v.. chi tiết vào file/batch convert..../advanced

dhq · 22/11/20

bamagachu nói: ↑

Tôi chuyển sách scan PDF thành văn bản nhưng file gốc có nhiều chỗ như bị "ghẻ" nên phần mềm ABBYY nhận diện sai rất nhiều. Ai có kinh nghiệm xin chỉ giúp có cách nào chỉnh sửa hàng loạt các trang để không phải làm thủ công không ạ. Chân thành cảm ơn!

Click to expand...

Lúc scan bác chọn chế độ xám (Grayscale) thay vì Black and White coi, sau đó là để nguyên cái đó đóng file pdf, file sau scan nhìn dễ chịu hơn rất nhiều. Mình hay dùng cách này khi scan sách.

bamagachu · 24/11/20

dhq nói: ↑

Lúc scan bác chọn chế độ xám (Grayscale) thay vì Black and White coi, sau đó là để nguyên cái đó đóng file pdf, file sau scan nhìn dễ chịu hơn rất nhiều. Mình hay dùng cách này khi scan sách
Click to expand...

Sách pdf mình tải trên mạng, muốn chuyển thành file word để đọc trên điện thoại và thuận tiện cho việc biên soạn tài liệu. Vấn đề là file gốc xấu quá và ABBYY lại kén sách, mấy ứng dụng trên đt thì mình thao tác không quen. Thử qua một số phần mềm khác thì thấy easy screen ocr cũng tạm ổn. Thằng này cũng dùng Google Drive engine.

Đăng nhập

Mời tham gia cuộc thi "CHIA SẺ KỶ NIỆM ĐÁNG NHỚ" nhân dịp TVE-4U 10 tuổi

Hướng dẫn chuyển đổi các định dạng eBook

Hướng dẫn xử lý lỗi không 'download - viết bài - xem link' được trên diễn đàn

Hỏi đáp Chỉnh sửa sách scan

bamagachu Mầm non

iamtnl Lớp 4

bamagachu Mầm non

Dr. No Không không thấy

Các file đính kèm:

Glinca.docx

iamtnl Lớp 4

Các file đính kèm:

Denoised.pdf.zip

iamtnl Lớp 4

Các file đính kèm:

denoise_ocr.txt

jun276 Lớp 4

V/C Mầm non

bamagachu Mầm non

Dr. No Không không thấy

machine Lớp 12

welcom1985 Lớp 3

dhq Lớp 3

bamagachu Mầm non

Chia sẻ trang này