Hướng dẫn Một số vấn đề khi làm sách dạng PDF

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi Caruri Tlkd, 6/6/17.

  1. NQK

    NQK Lớp 10

    Có lẽ tôi có vấn đề đọc hiểu rồi. :(

    Nếu máy tính thì cái gì mặc định dùng Times New Roman? Tôi nhớ là font mặc định của MSO - khi mới cài - áp cho văn bản là Calibri. Cũng font hãng đấy. Các bản MSO cũ quá thì không nhớ. Windows càng không dùng font đó mặc định cho giao diện hệ thống.

    Điện thoại (tôi không có windows phone) càng không dùng vì vấn đề bản quyền. Cụ thể thì Android mặc định dùng Roboto làm font giao diện. Nó có cài sẵn Droid Serif. Font này cũng font hãng đấy.

    Tuy nhiên, tôi vẫn không hiểu thì font liên quan gì tới OCR? Tôi thì cài máy ra chả xoá, thêm font nào nên cũng toàn font hãng thôi. Bạn làm rõ vấn đề này được không?

    Lớ ngớ tôi gặp vấn đề cả với viết.
     
    Chỉnh sửa cuối: 18/6/17
    Thương mến thích bài này.
  2. 4DHN

    4DHN Tiêu Dao

    Mất vài phút (gồm cả bật máy tính) với Calibre. Cho bạn cả file mobi (đã gỡ DRM) epub, pdf (giải nén file rar nhé), docx luôn. Cái gì mà mất nửa ngày? :D
     

    Các file đính kèm:

    Missfly82 thích bài này.
  3. Missfly82

    Missfly82 Mầm Non

    cái này so với Bác thui, chứ một người mới thì thời gian đó là ít đó chắc vài ngày là bình thường. Hì hì hì.
     
    Thương mến thích bài này.
  4. Missfly82

    Missfly82 Mầm Non

    Mình nói đơn giản nhé. Cứ lấy font dạng utf8 của mạng làm chuẩn, máy tính và điện thoại hỗ trợ utf8 lẫn unicode sẽ đồng bộ và hiển thị rất tốt còn không nó hiện ô vuông vì thiếu font. Khi bạn sử dụng hệ điều hành đa ngôn ngữ sẽ không bị lỗi vấn đề này. Nhưng có một số bác kỹ thuật font rất giỏi @4DHN thì có thể vẽ chữ thêm thêm trên font nữa, nhưng chưa chắc theo dạng utf8 hay unicode và unicode tổ hợp. Khi đó lỗi xẩy ra rất lớn về mặt font chữ
     
    Thương mến thích bài này.
  5. 4DHN

    4DHN Tiêu Dao

    Có vài topic về gỡ DRM file prc từ lâu rồi. Bạn quá lạc hậu, nói thực lòng đấy.

    Vui lòng đăng nhập hoặc đăng ký để xem link

    Vui lòng đăng nhập hoặc đăng ký để xem link
     
  6. Missfly82

    Missfly82 Mầm Non

    nói nhỏ cho Bác nghe cái này. Nếu gặp một vấn đề về ebook và là thành viên tve_4u.org thì tìm kiếm nhanh trong thanh tìm kiếm diễn đàn. Nhưng vào google.com.vn và gõ tìm hiểu thì ... diễn đàn tve_4u.org nằm ở đâu đó và những bài tìm hiểu chưa ai hơn Bác @4DHN về mặt trình bày bài viết
     
  7. NQK

    NQK Lớp 10

    Đang nói OCR?

    Vẽ chữ thêm là cái gì? Người ta 'thêm ký tự theo bảng mã unicode' đấy, thánh ạ.
     
    Chỉnh sửa cuối: 18/6/17
    Thương mến thích bài này.
  8. 4DHN

    4DHN Tiêu Dao

    Convert từ utf8 sang unicode quá dễ, chỉ là một kỹ thuật thông thường như cơm nguội thôi. Có gì mà phải nổ? Khi bị lỗi font thì cứ nêu thắc mắc lên mục Hướng dẫn chung thôi. Các cao nhân (not me) của Thư viện sẽ giúp giải quyết.

    P.S Đừng có cho tôi đi tàu bay giấy nhé, trong Thư viện còn nhiều người giỏi hơn tôi nhiều.
     
  9. Missfly82

    Missfly82 Mầm Non

    Tại bây giờ mình cũng chẳng có cùng lúc máy điện thoại 1 ngôn ngữ và 1 máy hỗ trợ nhiều ngôn ngữ chụp hình cùng lúc đưa lên diễn đàn. Sau đó orc image sang text để so sánh trực quan sinh động.
    p/s: Cái là có nhiều người giỏi nhưng khó tìm người giúp như Bác @4DHN. Đang định nhờ Bác hỗ trợ sửa font game Romance of the Three Kingdoms 11 để hiểu thêm về font image theo dạng hỗ trợ utf8, unicode, unicode tổ hợp
     
  10. 4DHN

    4DHN Tiêu Dao

    Tự google tìm cách làm đi bạn. Tôi có biết gì nhiều về tạo font đâu, chưa sạch nước cản. Trong topic đó cũng có nói sơ lược cách Việt hóa rồi. Chịu khó chút là làm được. Tôi bận việc lắm nên xin từ chối việc đó.
     
  11. Missfly82

    Missfly82 Mầm Non

    Chắc phải thế. Mon men theo chắc cũng hiểu nhiều vấn đề. cảm ơn Bác nhắc nhở và hỗ trợ
     
  12. minhduc.317

    minhduc.317 Mầm non

    Đào mộ cho các bạn vào sau. Với vấn đề các trang pdf bị lệch kích thước, các bạn resize các trang với đơn vị vật lý là inch, cm, mm (các đơn vị như pixel, dpi chỉ liên quan đến chất lượng hiển thị của trang có rõ, có nét hay không thôi).

    Hiện nay, việc xử lý các trang pdf các bạn có thể dùng:
    1. NAPS2: tách pdf thành ảnh và đóng gói các ảnh thành pdf
    2. Scan Tailor Advanced:
    - Xoay trang bị nằm ngang
    - Tách trang đôi
    - Xoay trang để canh hàng chữ cho thẳng
    - Chọn phần nội dung và thêm lề mới cho trang, xử lý được vấn đề các bạn đang tranh luận ở trên
    - Xử lý các trang vừa chứa text vừa chứa ảnh, đây là chức năng mình đánh giá cao nhất của phần mềm này, cải thiện bản scan bằng điện thoại đáng kể
    - Xuất ra file ảnh: nên chọn định dạng *.ttf để có chất lượng cao nhất.

    Các bước mình thường scan sách:
    - Công cụ: một thùng giấy A4 rỗng, khoét lỗ trên nắp vừa với camera và đèn led trên điện thoại, khoét bên hông để thay giấy. Mẹo: phần khoét trên nắp thùng nên nằm lệch về cạnh hông không bị khoét để ánh sáng hắt ra vừa đủ, chỉnh độ sáng đèn led xuống thấp nhất để bản scan không bị chói.

    - Phần mềm scan: sau khi thử nhiều phần mềm Adobe scan, HP Smart, Microsoft len... mình khuyến nghị vFlat. Mẹo: nên tắt chế độ tự động chuyển thành ảnh đen trắng của vFlat, sau đó xuất thành tập zip

    - Xử lý ảnh với Scan Tailor Advanced, đóng gói pdf với NAPS2.

    Miễn trừ trách nhiệm:
    Tất cả phần mềm mình nêu trong bài mình ưu tiên dùng phần mềm miễn phí hoặc mã nguồn mở nhé các bạn.

    Sách mình đều mua, sau đó tách thành từng trang để scan cho đẹp, rồi ra tiệm photocopy đóng ngược thành sách rồi quyên tặng. Bản thân mình chỉ thích đọc trên máy tính bản hay điện thoại thôi. Đây là sở thích cá nhân nên mong các bạn đừng quá chú tâm vào việc mình tách rời quyển sách nhé.
     
  13. tran ngoc anh

    tran ngoc anh Cử nhân

    Không sao đâu, không ai dám chỉ trích bạn đâu vì đó là tài sản cá nhân của bạn cơ mà, hơn nữa bạn còn có tấm lòng quyên tặng thì ai có thể trách được cơ chứ?
     
  14. machine

    machine Lớp 11

    Đóng gói các ảnh thành pdf thì dùng ABBYY đi bạn. Nó tạo thành file searchable pdf luôn, tra cứu thuận lợi.

    Scan Tailor Experiment còn mạnh hơn nữa, nắn thẳng trang sách cong được luôn :D
    Mà bạn tháo sách ra nên trang sách phẳng sẵn rồi nên không cần Scan Tailor Experiment.

    Cần gì đồ nghề phức tạp. Đặt cái bàn gần cửa sổ nhiều ánh sáng, mua kẹp điện thoại đuôi khỉ chưa đến 20k để kẹp điện thoại, nếu mặt bàn không đồng màu, nhiều hoa văn thì kiếm miếng bìa đồng màu để lót sách là chụp vẫn ổn.
    Bạn tham khảo:
    - Ảnh bên dưới là trang sách chụp bằng điện thoại cùi, đặt cạnh cửa sổ.
    011.jpg
    - file đính kèm tif 011.rar là ảnh sau khi xử lý bằng Scan Tailor Experiment.
     

    Các file đính kèm:

    Dr. No and Anan Két like this.
  15. machine

    machine Lớp 11

    [Kinh nghiệm đi chụp sách ở thư viện]
    Nếu thư viện chỉ cho mượn sách đọc tại chỗ mà không cho mượn sách về nhà nhưng cũng không cấm chụp sách (hoặc thủ thư lơ đi cho :p) thì ta có thể chụp sách rất dễ dàng.

    Đồ nghề:
    - điện thoại có vFlat
    - bộ pin xạc dự phòng (đủ nặng để chặn điện thoại), nếu không có thì dùng cục chặn giấy :D

    Cách làm:
    - đặt điện thoại thò ra khỏi mép bàn càng nhiều càng tốt
    - dùng bộ pin xạc dự phòng hoặc cục chặn giấy đặt lên trên mặt kính điện thoại làm đối trọng cho điện thoại khỏi rơi
    - ngồi ghế, tư thế hơi cúi xuống :p và đặt sách lên đùi, 2 tay lật từng trang sách cho vFlat chụp (hẹn giờ 7 giây), nhớ bật ánh sáng trong vFlat
    - một số ảnh vFlat nắn xong vẫn bị cong, có thể xử lý tiếp bằng Scan Tailor Experiment (cải thiện thêm 1 chút)
     
    Chỉnh sửa cuối: 18/10/22
  16. minhduc.317

    minhduc.317 Mầm non

    ABBYY là phần mềm bản quyền, mình không muốn khuyến nghị các bạn dùng bản bẻ khóa. Trong trường hợp các bạn sử dụng có thể xuất ra:
    - PDF/A: phần mềm sẽ OCR nên các bạn có thể bôi chọn phần text để copy
    - PDF/UA: như trên và hỗ trợ text-to-speech

    Về phần mềm Scan Tailor Advanced đa phần mình dùng tính năng Chọn nội dung và thêm lề để các trang đều nhau, sử dụng chế độ trộn (mixed) khi xử lý các trang có hình ảnh.

    Mình thường xuất file *.ttf để giữ chất lượng cao nhất và nén thành *.cbz để lưu trữ và tiện sau này xuất ngược sang pdf hay ocr sang epub.

    Về bản chất cbz là một tập tin nén nên khi giải nén nội dung trong đó (các file ảnh scan) sẽ không thay đổi gì, phù hợp để lưu trữ, muốn đọc nhanh cũng rất dễ dàng.

    Còn về pdf, nó là một định dạng miễn phí nhưng độc quyền của Adobe, cũng như Android của Google vậy, mình không hiểu cơ chế của nó, cũng không yên tâm giao phó công sức của mình. Nó phù hợp xuất ra để chia sẻ nhưng VỚI MÌNH, không phù hợp để lưu trữ.
     
    machine thích bài này.
  17. tran ngoc anh

    tran ngoc anh Cử nhân

    Có phải tệp .tiff không bạn?


    Thực ra thì Adobe đã công bố toàn bộ tài liệu kỹ thuật của PDF vào năm 2008 và chuyển giao hết cho tổ chức ISO quản lý. Nên, vâng, PDF là mở và bạn có thể an tâm lưu trữ tài liệu bằng PDF, Adobe còn nhiều nguồn thu khác giá trị hơn là đánh phí vào PDF (◠‿◕) Hơn nữa PDF còn có phần mở rộng các mục đích nữa. Ví dụ PDF/A (archive) chuyên để lưu trữ luôn. Tức là khi lưu tài liệu bằng PDF/A, các font chữ sẽ được nhúng vào, nên dung lượng có thể lớn hơn bình thường, và sẽ không thể chỉnh sửa thêm file đó nữa. Khi muốn sửa, phần mềm sẽ yêu cầu chúng ta lưu thành một bản sao PDF bình thường để sửa, chứ nhất quyết không cho sửa file gốc.

    Còn về Android. Cũng là mở bạn nhé. Ít nhất là AOSP. Trên danh nghĩa Google sở hữu Android, nhưng họ chỉ chịu trách nhiệm phát triển chính thôi. Android vẫn thuộc thế giới mã nguồn mở Linux thôi à.

    Tuy nhiên, những phiên bản Android chạy trên điện thoại đều có lẫn các nguồn đóng độc quyền như bộ phần mềm người dùng của Google như Chrome, Drive, Map... các api camera cũng như là vendor phần cứng của mỗi thương hiệu điện thoại riêng.

    Nếu bạn ngại dùng phần mềm độc quyền thì bạn chỉ có nước nghỉ xài điện thoại thôi, vì ngoài Android ra bạn có thể chọn gì khác? IOS ư? 。◕‿◕。 nó còn đóng hơn cả Android nữa.
     
    machine thích bài này.
  18. minhduc.317

    minhduc.317 Mầm non

    Cảm ơn sự góp ý của bạn, đúng là .TIFF, mình ghi sai.

    Uhm... có lẽ do mình diễn giải không rõ, về PDF mình không ngại vấn đề bản quyền, mình ngại cách mà nó nén ảnh thành PDF ấy, các file hình ảnh có thay đổi gì không, khi chuyển ngược từ file PDF thành hình ảnh thì kết quả có phải là hình ảnh ban đầu của mình không...

    Mình vẫn xuất thành PDF/A để xem trên máy tính bảng, vì đôi khi mình cần chức năng tra từ điển, hay cần tra nhanh mục lục... riêng CBZ mình chỉ dùng với mục đích lưu trữ.

    Sau này, giả sử xuất hiện định dạng mới hay PDF phát triển thành PDF/A2, PDF/A3 gì... gì... đó thì mình sẽ dùng CBZ để chuyển qua.
     
  19. tran ngoc anh

    tran ngoc anh Cử nhân

    Không đâu đâu bạn ơi. Tùy cách mình đóng PDF mà thôi. Bạn muốn nó giữ nguyên chất lượng hay muốn nó nén đến đâu đều có thể điều khiển được.
     
  20. Dr. No

    Dr. No Không không thấy

    Công nhận.

    Tôi đã thử với ảnh chụp rất đại khái mà xử lý xong thành rất đẹp.
    IMG20221015140934.jpg

    upload_2022-10-15_20-48-44.png

    [​IMG]

    [​IMG]

    IMG20221015140949.jpg

    [​IMG]
    [​IMG]
     

    Các file đính kèm:

    Chỉnh sửa cuối: 15/10/22
    tran ngoc anh and Anan Két like this.

Chia sẻ trang này