https://github.com/Yanpas/PdfMerger viết bằng java nên chắc là chạy được trên cả windows :D
về việc xử lý header/footer. ngoài các cách cắt/crop thì có thể xử lý sau khi OCR. với các header/footer dùng font cơ bản: xác định pattern...
cần phải so sánh với số lượng mẫu nhiều hơn, một trang thì chưa đủ để kết luận. và đã so sánh thì phải theo cùng 1 tiêu chuẩn là số chữ sai. ví dụ...
Chụp sách bằng VFlat (sử dụng tính năng auto), export ra máy tính và OCR bằng Drive. Chưa đến 1h là xong 1 quyển tầm 500tr.
thêm 1 điều nữa. google ocr khoản chữ số rất kém. không phải là do không nhận diện được, mà là do thuật toán sửa lỗi theo ngữ cảnh nên có thể dẫn...
b có thể gửi phần chi tiết yêu cầu cho m xem không? hoặc nếu b ok thì m có thể teamview giúp b xử lý
cứ ấn paste xong enter thôi. password ko hiện ra trong cmd đâu.
à và bổ sung thêm cái disclaimer. file drive.exe được chia sẻ là lấy từ nguồn ở đây và build cho windows. https://github.com/odeke-em/drive đây...
nay mới đọc thấy bài này :D những gì cần thiết thì @tran ngoc anh đã trình bày hết rồi. có một lưu ý nhỏ là trước khi OCR thì nên bỏ các trang...
http://bjhollingum.blogspot.com/2014/01/bug-chasing-in-google-play-books.html Có thể đọc bài viết này. Về cơ bản thì GPB chỉ lấy nội dung + 1...
Không rõ trên Android như thế nào chứ trên iOS thì app vFlat có chế độ tự động nhận diện trang sách luôn, chỉ cần giơ trang sách ra trước camera,...
nếu thường dùng GG Books thì nên cài plugins epubcheck của calibre. sách trước khi đẩy lên GG Books thì check qua tool này + tool của Calibre...
để hiện cover trên google books thì b cần check file .OPF trong EPUB. ở trong thẻ <manifest> tìm mục thể hiện cover của sách. ví dụ <item...
http://www.fmwconcepts.com/imagemagick/textcleaner/index.php https://github.com/unpaper/unpaper https://github.com/jbarlow83/OCRmyPDF Mình để một...
rồi chuẩn bị lên bài ocrmypdf, textcleaner, unpaper... xong hướng dẫn cài ubuntu subsystem để chạy lệnh linux rồi google drive api, tesseract......
Ủng hộ dùng md để làm ebook. [ATTACH]
nên dùng như này a[epub|type="noteref"] {vertical-align: top; font-size: 0.6em;} thì cái dòng có chú thích nó sẽ không còn bị giãn ra 1 cách kỳ...
đúng rồi ạ. kfx chơi footnotes lành lắm, không kén như azw3 :D
Thả 1 con ảnh. [ATTACH]
Mình đóng góp bản đánh máy từ bản trên, dịch bổ sung trang cuối không có trong file scan.