PC [PDF, Bookmark] Import bookmark vào file PDF từ file text soạn sẵn

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi tran ngoc anh, 1/8/21.

  1. tran ngoc anh

    tran ngoc anh Cử nhân

    Mình có biết một phần mềm chạy nền java có thể add tất cả các dòng mục lục được soạn sẵn vào một tập .txt, lý tưởng nhất là được OCR từ chính trang mục lục trong sách in, rất nhanh chóng luôn ^_^

    Sau đây xin chia sẻ đến các bạn:

    + Tải phần mềm từ Vui lòng đăng nhập hoặc đăng ký để xem link, rồi làm theo hình minh họa bên dưới nha;

    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]

    + Khi edit file txt theo mẫu của phần mềm mình khuyên dùng phần mềm Notepad++ có tính năng chọn nhiều ký tự của cùng cột của nhiều hàng, ví dụ như đặt con trỏ tại tất cả các vị trí đầu dòng để gõ một ký tự áp dụng cho mọi dòng được chọn, rất thích hợp để xử lý level của file mục lục.

    + Để thực hiện tính năng đó các bạn click chuột tại vị trí đầu, nhấn giữ Shift+Alt rồi click chuột đến vị trí cuối cần chọn.

    + PDF và file TOC mẫu dưới đính kèm:
     

    Các file đính kèm:

    Chỉnh sửa cuối: 6/12/23
    xversion1, songuyento and Dr. No like this.
  2. tran ngoc anh

    tran ngoc anh Cử nhân

    Hôm nay chúng ta tiếp tục với một app nền java nữa còn "siêu nhơn" hơn jpdftweak nhiều, ngoài việc em ấy có thể import bookmark cho pdf, còn có thể chỉnh sửa, tô màu, nghiêng đậm trực tiếp y như ta làm trên acrobat hoặc foxit phantom vậy. Here we go:

    Link của em ý tại trang Vui lòng đăng nhập hoặc đăng ký để xem link các bạn cũng có thể tìm thấy mã nguồn của em ý trên trang github và đóng góp mã nếu thích ^^

    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]
    [​IMG]

    + file pdf mẫu và file txt mẫu đính kèm bên dưới:
     

    Các file đính kèm:

    Chỉnh sửa cuối: 6/12/23
    xversion1 and khoasdyn like this.
  3. Cloud Moon Tran

    Cloud Moon Tran Mầm non

    Các bài này bạn vừa viết hôm nay luôn à?
     
  4. tran ngoc anh

    tran ngoc anh Cử nhân

    Vừa viết đó.
     
  5. vinaguy

    vinaguy Lớp 11

    Em làm việc nhiều với pdf rồi, nhưng chưa làm việc nhiều với bookmark dài và nhiều (ví dụ cuốn thuốc nam của bác @Dr. No làm). Nhưng em nghĩ vấn đề ở chỗ là làm ra cái file text kia đúng không bác @tran ngoc anh? Chứ còn nhập cái text kia vào một file pdf thì hầu như các chương trình đọc và edit pdf nó đều thực hiện tốt chớ bác nhễ?
     
  6. Cloud Moon Tran

    Cloud Moon Tran Mầm non

    Hóng hớt không thành trong top kia chuyển sang top này dịu giọng hẳn xuống nhỉ, cô guy nhỉ?
     
  7. tran ngoc anh

    tran ngoc anh Cử nhân

    Chắc chắn rồi, nhưng làm ra file này lại khá đơn giản bạn ơi.

    Như có trình bày ở đầu topic, để có được file text soạn sẵn như này thì chuẩn nhất là OCR cái trang in mục lục của chính file PDF, 30s là có ^ ^

    Trường hợp là true PDF, có cái trang mục lục đó thì sẵn text đó chỉ cần copy ra thôi, tiện hơn nữa.

    Sau đó thì edit lại một chút cho đúng định dạng mà phần mềm cần rồi add vào.


    Không phải đâu bạn ^ ^

    Chương trình đọc PDF phế lắm, còn các chương trình lớn như Foxit hay acrobat thì bạn phải lần đến vị trí của từng trang, Ctrl+B rồi dán tiêu đề cho từng mục, nếu đã có text OCR sẵn, còn thì phải type từng chữ.

    Tất nhiên tất cả các trình edit PDF lớn đều hỗ trợ add bookmark từng dòng và gõ trực tiếp như vậy. Nhưng import cả một file vài trăm dòng hay vài ngàn dòng thì bản thân em ấy không thể.

    Có một plugin cho acrobat lẫn Foxit có thể add cả file mục lục thế này, nhưng trả phí, và cái acrobat portable mình đang dùng người ta cắt mất cái chỗ thêm plugin từ bên ngoài
     
  8. RGBCD

    RGBCD Lớp 3

    Để thực hiện level của TOC thì để con trỏ vào đầu dòng gõ phím Tab một cái là được Level câp 2 của TOC.

    Nếu Mục lục có quy luật thì dùng lệnh

    VD như file đính kèm dưới đây
    F: (\d+)\.(\d+)
    R: {một tab}\1.\2
    Replace All

    Còn mấy dòng cuối

    F: Phụ lục (\d+)
    R: {một tab}Phụ lục \1
    Replace All

    Kết quả chạy jpdfbookmarks.exe như link này:

    Vui lòng đăng nhập hoặc đăng ký để xem link
     

    Các file đính kèm:

  9. tran ngoc anh

    tran ngoc anh Cử nhân

    Anh cài đúng cái notepad++ để test "Shift+Alt+click chuột" để cảm nhận cái tinh túy của cái TUT thôi :3D_28:
     
  10. amylee

    amylee Super Moderator Thành viên BQT

    Amy đang có tham vọng chụp một cuốn từ điển Anh-Anh mà Amy đang có. Có cái này sẽ rất tiện vì chỉ cần file pdf và mục lục đến chữ mình cần tìm mà không cần phải OCR và check chính tả, ví dụ như muốn tìm từ administration thì Amy sẽ làm mục lục chữ A-D; và bookmark này để hỗ trợ điều đó. Không biết Amy hiểu như vậy có đúng không?
     
  11. RGBCD

    RGBCD Lớp 3

    Notepad++ cài rồi nên mới chạy được regex mà em. Còn cái tinh túy của TUT thì từ từ thẩm. :D
    Chắc là được. Viết một TOC có mục lục cấp 1 là A, mục lục cấp 2 là Aa, Ab, ... Az, tất cả thành từng dòng, có số trang của pdf đúng với các chữ đầu đó.

    Có lẽ dùng ecxel tạo sẽ tốt hơn. VD: Một cột toàn là A, một cột nguyên bảng chữ cái đã loại bỏ những chữ không có. Các cột khác là các cấu trúc tiếp theo. Có lẽ việc chèn số trang chính xác là mệt nhất. :P Xong rồi copy tất cả sang txt rồi dùng lệnh xóa khoảng trống là xong.
     
  12. amylee

    amylee Super Moderator Thành viên BQT

    Cái này em chưa hiểu lắm, sẽ tìm hiểu sau :p. Ý em là, khi em chụp xong và chuyển thành pdf, em muốn làm mục lục cho mỗi Aa, ab, ..., Zz, v.v. Khi cần tìm từ có trong Ca, thì bấm mục lục vào đó, và tiếp tục lật trang tìm từ mình muốn tìm. Như thế thì em phải tạo như thế nào?
     
  13. RGBCD

    RGBCD Lớp 3

    Nó như file đính kèm dưới đây, cột tô màu ghi sẽ nhập số trang của pdf. Chọn tất cả (Ctrl+A), rồi copy (Ctrl+C) mở file txt mới rồi paste vào (Ctrl+V). Rồi xóa khoảng trống.

    Excel có cái hay là muốn các dòng trong cột giống nhau thì chỉ cần copy một ô, quét chuột đến dòng mình cần, Ctrl+V là các dòng được quét đó sẽ cùng nội dung, nên lập một bộ khung của TOC (chưa chèn số trang) rất nhanh. File này mà viết trên Word hay txt thì mất công lắm.

    P.S Cần phải tương đối thạo Excel để biết cách xóa/chèn một, nhiều dòng (nếu cần) cho chuẩn.
     

    Các file đính kèm:

    amylee thích bài này.
  14. tran ngoc anh

    tran ngoc anh Cử nhân

    regex trong trường hợp làm TOC này y như cái dao mổ trâu vậy á em đã cố nói hai ba lần rồi mà anh cứ lấy ra dùng. Em lạ gì regex mà anh cứ nhét regex vào cái bài TUT vốn chỉ cần soạn trên Notepad++ nhỉ?
     
  15. tran ngoc anh

    tran ngoc anh Cử nhân

    Cuốn sách của bạn có trang mục lục không? Bạn chụp mình xem thử với, nếu được soạn đầy đủ vị trí các từ OCR phát nhét vô thành bookmark ok đó.
     
    amylee thích bài này.
  16. RGBCD

    RGBCD Lớp 3

    File excel vừa xong thừa một chữ p vì thế cần xóa dòng đó.

    Để chuột vào số 18, rồi bấm chuột phải
    X1.jpg

    Rồi bấm Delete thôi. Nếu cần chèn dòng thì chọn Insert.

    X2.jpg

    Nhiều khi trang Mục lục đó in sai số trang. Ngay cuốn giáo trình kỹ thuật lạnh có một số bị sai. Nên phải làm 2 bước. Đầu tiên cứ làm bookmark với file đầu tiên rồi test từng dòng, chỗ nào nhảy sai trang thì sửa ở txt cho đúng. Rồi làm lại bookmark với txt mới. :D

    Mục lục từ điển có A, rồi Aa.... B, Ba, .... C, Ca.... Z, Za.... à? :D
     
    amylee thích bài này.
  17. amylee

    amylee Super Moderator Thành viên BQT

    Cuốn Amy muốn làm là từ điển nên không có trang mục lục. :p
     
  18. amylee

    amylee Super Moderator Thành viên BQT

    Để em tìm hiểu nhé. Có gì không hiểu em inbox hỏi anh Ba nha. Chắc là hỏi nhiều lắm đó (cách tạo Bookmark) hehe. :p:p:p
     
    Chỉnh sửa cuối: 12/9/21
  19. amylee

    amylee Super Moderator Thành viên BQT

    Đúng rồi anh Ba. 26 chữ cái, trong 26 chữ cái, mỗi chữ cái sẽ lồng vào 26 chữ cái nữa. Nên file pdf có mục lục thì rất dễ tra từ điển. :D
     
  20. RGBCD

    RGBCD Lớp 3

    Cứ làm 26 chữ cái rồi từng chữ lồng 26 chữ cái, rồi thêm trang pdf vào các dòng đó. Những dòng nào không có số trang vd: Dd chắc không có từ nào bắt đầu như thế thì sẽ xóa dòng đó trong excel đi. Nói chung, việc này khả thi, có điều khá mất công, chắc ngang với làm một ebook. :D

    File excel kia thì cứ giữ chuột quét cả mảng có chứa chữ, copy, rồi để con trỏ vào ô đầu tiên ở góc trái, rồi Ctrl+V là được cả mảng mới, làm 26 lần sẽ được 26 mảng giống hệt nhau. Rồi sửa chữ A đầu tiên của mảng thứ 2 thành B, copy nó xuống những ô dưới của mảng thứ 2 sẽ được một cột toàn B. Rồi làm tương tự với mảng thứ 3 sẽ được một cột toàn C....
     
: bookmark, PDF

Chia sẻ trang này