Hướng dẫn Cách tạo file PDF từ Flash Player (flexpaper)

Thảo luận trong 'Hướng dẫn chung' bắt đầu bởi dragonking91, 19/6/16.

  1. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Bài viết được lấy ý tưởng từ Vui lòng đăng nhập hoặc đăng ký để xem link và bài Vui lòng đăng nhập hoặc đăng ký để xem link của bác Khiconmtv. Mình kiến thức có hạn, mạn phép làm bài hướng dẫn "Cách để tải về một tập tin PDF từ một trang web sử dụng Flash Player (flexpaper)", có sai sót mong các bạn góp ý.

    FlexPaper là phần mềm trình chiếu file PDF giúp thư viện có rất nhiều kiểu dáng giúp bạn đọc nội dung PDF một cách đẹp mắt. Tuy nhiên nếu bạn muốn print thì không thể. Vì Viewer Flexpaper này là PDF chuyển đổi sang SWF và chia mỗi trang được một tập tin .swf.

    Các bước để tải được file pdf:
    1. Tìm các liên kết swf sử dụng Adblock Plus chức năng "Open blockable items"
    2. Tạo một danh sách tải về IDM với các liên kết và tải chúng.
    3. Trích xuất file ảnh từ file SWF (Flash)
    4. Tạo một file PDF từ các ảnh trích xuất từ bước 3 dùng OCR (Optical Character Recognition) quét trên pdf với ABBYY FineReader.

    1. Tìm các liên kết swf sử dụng Adblock Plus chức năng "Open blockable items"

    Đầu tiên bạn cài đặt Adblock Plus trên firefox Vui lòng đăng nhập hoặc đăng ký để xem link. (Lưu ý chỉ trên firefox, nếu chưa cài thì tải Vui lòng đăng nhập hoặc đăng ký để xem link)
    Ví dụ bạn vào Vui lòng đăng nhập hoặc đăng ký để xem link, nhấp vào biểu tượng adblock plus và chọn "Open blockable items" như hình dưới
    [​IMG]
    Cửa sổ bên dưới hiện lên, bạn chọn address có đuôi format=swf&page=1, page=2,...

    2. Tạo một danh sách tải về IDM với các liên kết và tải chúng.

    Mở internet download manager, chọn Tasks->Add batch download.
    [​IMG]
    Một cửa sổ Batch download hiện lên. 1: Paste address ở bước 1 vào phần Address, chỉnh sửa page=1 thành page=*; trong dấu * có thể là số trong khoảng từ 0 – n (n tự đặt), hoặc là chữ cái a-z.
    2: Ở ví dụ này chọn Numbers như hình.
    3: ví dụ này mình bắt đầu từ số 1 như ô "from".
    4: kết thúc đúng bằng số trang như ô "to".
    5: Wildcard size là độ rộng của * ở dạng số để có link chính xác (vd: 1, 01, 001), ở đây số trang 578 nên Wildcard size =1 hoặc 2 hoặc 3 đều được.
    6: nhấn OK.

    [​IMG]

    Tiếp theo sửa phần "replace file names..." thành *.swf hoặc như mình cũng được, chọn như số 2 và dẫn đến nơi lưu, cuối cùng nhấn OK.
    [​IMG]

    Cửa sổ nhỏ hiện ra, ban chọn theo thứ tự các bước như hình dưới. Tùy tốc độ mạng và dung lượng các file tải về mà thời gian hoàn thành nhanh hay chậm.

    [​IMG]

    3. Trích xuất file ảnh từ file SWF (Flash)

    Để chuyển đổi các tập tin .swf để .tiff sử dụng SWFTools. Tải Vui lòng đăng nhập hoặc đăng ký để xem link, cài đặt với quyền admin nhé.
    Phần này các bạn làm theo từng bước vì hơi rối với các bạn lần đầu tiên.
    • Vào thư mục chứa file .swf
    • Nhấn đồng thời phím "SHIFT" và click chuột phải rồi chọn "Open command window here"
    [​IMG]
    • Cửa sổ command màu đen hiện lên, bạn copy code sau và nhấn đồng thời Ctrl + V vào cửa sổ command
    Windows 64bit
    Mã:
    for %F in (*.swf) do "C:\program files (x86)\swftools\swfrender.exe" "%F" -o "%~dpnF.tiff" -X 1210 -Y 1712
    Windows 32bit
    Mã:
    for %F in (*.swf) do "C:\program files\swftools\swfrender.exe" "%F" -o "%~dpnF.tiff" -r 300
    Trong đó -r 300 là resolution 300dpi. 300 dpi là do ABBY khuyến nghị để OCR 1 cách hoàn hảo.
    Bạn muốn lưu thành định dạng ảnh .png thì thay tiff thành png.


    • Chờ một lúc nó sẽ chuyển hết các file .swf thành file .tiff, trong lúc nó chạy bạn đừng tắt cửa sổ command nhé.
    4. Tạo một file PDF từ các ảnh trích xuất từ bước 3 dùng OCR (Optical Character Recognition) quét trên pdf với ABBYY FineReader.

    Bước này mình dùng phần mềm ABBYY FineReader.

    Phần này có bạn @MoVo hướng dẫn Vui lòng đăng nhập hoặc đăng ký để xem link. Các bạn tham khảo nhé

    Có sai xót các bạn góp ý thêm cho mình hoàn thiện.

    Thân!
    --------------------------
    Cảm ơn bác @khiconmtv đã góp ý, mình đã sửa lại để các bạn làm theo nhanh hơn.
    --------------------------
    Update Video hướng dẫn
     
    Chỉnh sửa cuối: 3/7/16
  2. Heoconmtv

    Heoconmtv Moderator Thành viên BQT

    Giải thích cụ thể giúp mình bước này được không? Sách có 500 trang thì mình kéo xuống 500 ô sau đó thay thủ công page=1, page=2, page=3 cho đến page=500 hả.

    Bài hướng dẫn rất hay và bổ ích. Mong chờ bản hướng dẫn full của @dragonking91. Chân thành cảm ơn chủ topic rất nhiều.
     
    bachtuduong thích bài này.
  3. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Bạn chép vào Excel rồi kéo nhé. Ví dụ như file ví dụ bạn thấy có 578 trang thì bạn kéo đúng số này. Vì theo lý thuyết 1 trang sách sẽ được lưu thành 1 file .swf hay có bao nhiêu trang thì có bấy nhiêu file .swf . Nếu bạn sợ thiếu trang thì bạn kéo đến 579 thì trên idm sẽ báo error vì trang nàykhông tồn tại.
    1 laptop đã hư, còn 1 lap cả nhà xài chung nên giờ làm mới xong :)
     
    Chỉnh sửa cuối: 19/6/16
    Heoconmtv and bachtuduong like this.
  4. bachtuduong

    bachtuduong Mầm non

    Ý của @dragonking91 là bạn chỉ cần biết cấu trúc link ...page=1 thì các trang sau sẽ có link tương tự nhưng nhảy số thôi, không cần phải kéo thủ công trên firefox. Tiếp theo bạn chép vào Excel rồi kéo cho nó chạy đến đúng số trang sách.
     
    Heoconmtv thích bài này.
  5. khiconmtv

    khiconmtv Cử nhân

    Batch Download của IDM cho nó nhanh, khỏi cần Excel.
    :D
     
    dragonking91, Heoconmtv and IronMan like this.
  6. Heoconmtv

    Heoconmtv Moderator Thành viên BQT

    Đã thử và thành công mỹ mãn. Chân thành cảm ơn @dragonking91 một lần nữa.
     
    dragonking91 thích bài này.
  7. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Mình update cách mới, bạn @Heoconmtv xem có nhanh hơn không nhé!
     
    Heoconmtv thích bài này.
  8. tran ngoc anh

    tran ngoc anh Cử nhân

    Công đoạn này làm trên chrome hay cốc cốc đều được, có sẵn luôn. Bạn @IronMan vào hướng dẫn đoạn này trên chrome đi :) Link nguồn đến cuốn "lịch sử triết học" của bạn mình cũng từng nhờ bạn @IronMan tải các file swf như vậy rồi.
     
    IronMan, dragonking91 and Heoconmtv like this.
  9. Heoconmtv

    Heoconmtv Moderator Thành viên BQT

    Trang timsach hay sachweb vẫn dùng flash Player nhưng mình không download được nhỉ?
     
  10. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Trang timsach bạn dùng cách sau:
    Ví dụ bạn vào Vui lòng đăng nhập hoặc đăng ký để xem link, nhấp vào biểu tượng adblock plus và chọn "Open blockable items", kéo phần blockable items bên dưới đến khi nhìn thấy Vui lòng đăng nhập hoặc đăng ký để xem link. Dùng idm batch để download về. Điểm khác ở đây file bạn download về không phải .swf mà là file hình ảnh nên bạn đến bước 4 luôn.
     
    Heoconmtv thích bài này.
  11. khiconmtv

    khiconmtv Cử nhân

    Timsach thì tải được luôn nguyên file rar của sách nhanh luôn. Có điều tải "chùa" liên tục thì cẩn thận vì nếu server nó phát hiện thì nó tạm thời chặn IP hết tải được.
     
    Heoconmtv and dragonking91 like this.
  12. dragonking91

    dragonking91 ...!!! Thành viên BQT

    @Heoconmtv phần dùng idm batch bạn nên làm theo hình nhé, không khéo kêu mình chỉ bậy cute_smiley18
    [​IMG]
    Phần address sửa timsach0001.jpg thành timsach00*.jpg
    from 1 to 60, wildcard size :2
    Giải thích sơ qua: mình lấy ví dụ làm chuẩn thôi, với file khác làm tương tự. Do chương 1 có 60 trang nên from 1 to 60; timsach0001.jpg...timsach0060.jpg => 2 số cuối chạy từ 1 đến 60 nên ta dùng timsach00*.jpg và wildcard size :2:)
     
    Cải and Heoconmtv like this.
  13. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Anh pro về cái này chỉ em với! :)
     
    Heoconmtv thích bài này.
  14. Heoconmtv

    Heoconmtv Moderator Thành viên BQT

    Đã thử và thành công. Trên cả tuyệt vời. Cảm ơn @dragonking91 rất nhiều.
     
    dragonking91 thích bài này.
  15. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Còn trang sachweb, bạn cũng làm tương tự đối với flash player flexpaper ở #1.
    Ví dụ bạn vào Vui lòng đăng nhập hoặc đăng ký để xem link, nhấp vào biểu tượng adblock plus và chọn "Open blockable items", kéo phần blockable items bên dưới đến khi nhìn thấy Vui lòng đăng nhập hoặc đăng ký để xem link. Dùng idm batch để download về. Mẹo tìm link để download là bạn nhấn "type" và chỉ chú ý đến object subre... nào có 001, 002,.. thì đó chính là kho báu và dùng idm mang chúng về.
    [​IMG]
    Thông số trên idm ở ví dụ này: Phần address sửa page0001.swf thành page0*.swf
    from 1 to 130, wildcard size :3
    3D_16
     
    Chỉnh sửa cuối: 21/6/16
    Cải and Heoconmtv like this.
  16. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Mình bổ sung video và chỉnh sửa một và chỗ. Mở chế độ HD xem cho rõ nhé các bạn :)
     
    Hoàng Lão Tà and Heoconmtv like this.
  17. dragonking91

    dragonking91 ...!!! Thành viên BQT

    2 bác @Heoconmtv, @Hoàng Lão Tà vào test giúp mình, mình mới sửa lại code, đảm bảo chất lượng ảnh trên cả tuyệt vời. 3D_16
     
    Hoàng Lão Tà and Heoconmtv like this.
  18. khiconmtv

    khiconmtv Cử nhân

    Chỗ cái code thật ra trước tiên nên dùng cách của mình trước để trích ra một ảnh demo xem kích thước, độ phân giải gốc của nó là bao nhiêu rồi tùy chỉnh lại. Giữ các giá trị gốc này quan trọng vì thay đổi nó sẽ làm ảnh hưởng đến chất lượng.
    Nguyên tắc của mình là trừ khi cần thu nhỏ dung lượng để xem trên ĐT hay xem tạm, còn lại là luôn cố gắng giữ nguyên chất lượng gốc để khi cần dễ sử dụng cho các mục đích khác dù có thể dung lượng của nó rất nặng.
     
    dragonking91 and Heoconmtv like this.
  19. khiconmtv

    khiconmtv Cử nhân

    Hôm nọ bác @Hoàng Lão Tà có khúc mắc chỗ đặt tên file sau khi trích xuất hàng loạt ảnh từ 1 đống SWF. Nó sẽ tạo ra các thư mục theo thứ tự nhưng file ảnh lưu bên trong tất cả lại trùng tên. Ví dụ các thư mục 1, 2, 3 nhưng tên file ảnh đều là xxx.jpg chẳng hạn.
    Mình hướng dẫn cách đổi tên các file ảnh này theo đúng thứ tự của thư mục chứa nó. Sử dụng Total Commander nhé.
    - Vào thư mục chứa các thư mục tăng dần kia, nhấn Ctrl+B để show hết các file ảnh ra.
    - Ctrl+A chọn hết các file ảnh > chọn Muti-Rename tool.
    - Chọn nút [=?] Plugin > tc >path. Lúc này tên mới sẽ là đường dẫn của thư mục, bản thân file ảnh lại không có tên, nó sẽ tạo thêm các thư mục con bên trong lưu cái file ảnh không tên đó. Khoan nhấn nút Start.
    Image 001.jpg

    - Qua ô Search for gõ ký tự \ vào, ô Replace with sẽ tự có <Clear>. Nhấn nút Start được rồi.
    Image 002.jpg

    - Giờ thì có thể chuyển hết các file ảnh đó vào chung 1 thư mục được rồi và cũng dễ đặt lại tên cho dễ nhìn hơn.
     
    Hoàng Lão Tà and Heoconmtv like this.
  20. dragonking91

    dragonking91 ...!!! Thành viên BQT

    Theo em quan sát, ảnh mặc định chất lượng không tốt lắm cần phải tăng độ phân giải lên như thêm -r 300 hay zoom lên theo cách của bác (hình dưới em zoom lên 300%)

    [​IMG]
    Thân!
     
    Hoàng Lão Tà and Heoconmtv like this.

Chia sẻ trang này