Giới thiệu

PDFEX giúp bóc tách và số hóa hồ sơ lưu trữ từ file PDF scan nhiều văn bản. Ứng dụng dùng OCR (Tesseract) để đọc nội dung, tự nhận diện ranh giới từng văn bản (theo quốc hiệu, số hiệu…), tách thành file PDF riêng và xuất bảng kê kèm báo cáo JSON/HTML.

PDF đầu vào nên là bản scan thẳng, đủ sáng; mỗi văn bản mới thường bắt đầu bằng quốc hiệu hoặc dòng số hiệu.
Quy trình nhanh
  1. Điền Mã đơn vị và các thông tin cấu hình (Phông, Phiên bản, Ngày scan…).
  2. Chọn Loại văn bản phù hợp hoặc để Tự nhận diện.
  3. Kéo thả file PDF vào vùng upload hoặc bấm Chọn file.
  4. Bấm Phân tích — chờ OCR và tách PDF (theo dõi thanh tiến trình).
  5. Xem bảng kết quả, bấm ZIP để tải hoặc Thư mục để mở nơi lưu file.
Cấu hình
Mục Mô tả Ví dụ
Mã đơn vị Tiền tố đặt tên file PDF đầu ra; tự điền khi chọn loại văn bản. H38.141
Loại văn bản Quy tắc nhận diện số hiệu, loại VB. Tự nhận diện phù hợp hồ sơ hỗn hợp. QĐ, TTr, CV…
Phông Số phông 6 chữ số (tùy chọn), định dạng giống số thứ tự tài liệu; nằm giữa mã đơn vị và phiên bản. 000068
Phiên bản Phiên bản bóc tách / lần số hóa. v1
Ngày scan Ngày scan hồ sơ, định dạng yyyymmdd. 20260607
DPI Độ phân giải khi chuyển PDF → ảnh để OCR. 200 là cân bằng tốc độ/chất lượng; 300 cho scan mờ. 150 / 200 / 300
OCR Ngôn ngữ nhận dạng: Tiếng Việt hoặc English. Việt Nam
Luồng Số luồng OCR song song (1–4). Tăng nhanh hơn nhưng tốn RAM/CPU. 2

Tên file xuất ra theo mẫu MãĐV_Loạivănbản_Phông_PhiênBản_NgàyScan_STT.pdf (ví dụ có phông: H38.141_QĐ_000068_v1_20260607_000001.pdf; bỏ trống phông: H38.141_QĐ_v1_20260607_000001.pdf). STT (ví dụ 000001) là số thứ tự tài liệu trong hồ sơ — 6 chữ số, phần mềm tự đánh theo thứ tự văn bản tách được.

Giao diện chính
  • Cấu hình (cột trái): form upload và nút Phân tích.
  • Lịch sử: danh sách các lần xử lý trước; bấm một dòng để xem lại kết quả.
  • Kết quả: bảng STT, tên file, trang, loại VB, số hiệu, trích yếu, ngày ban hành.
  • Thanh tiến trình: hiện khi đang OCR/tách; có thể Hủy giữa chừng.
Kết quả & tải file

Sau khi hoàn tất, trong thư mục kết quả có:

  • Các file PDF đã tách (mỗi văn bản một file).
  • report.jsonreport.html — bảng kê chi tiết, mở HTML offline được.

Trên giao diện:

  • ZIP — nén toàn bộ thư mục kết quả (trên desktop sẽ hỏi nơi lưu).
  • Thư mục — mở thư mục chứa file trên máy.
  • Xóa — xóa công việc và dữ liệu liên quan khỏi lịch sử.
Loại văn bản

Bấm Loại VB trên thanh menu để xem danh sách profile nhận diện (mã, nhãn, tiền tố mặc định, mẫu số hiệu…). Chọn đúng loại giúp OCR nhận số hiệu và phân đoạn chính xác hơn.

Mở danh sách loại văn bản
License & dùng thử
  • Dùng thử: xử lý giới hạn số trang đầu mỗi PDF; thời hạn thử hiển thị trên thanh cảnh báo.
  • Mua key trực tuyến: mở modal Giới thiệu hoặc truy cập PayShop — chọn PDFEX, nhập mã máy, thanh toán VietQR và nhận key tự động.
  • Kích hoạt: bấm biểu tượng chìa khóa → dán License key (hoặc sao chép Mã máy khi mua thủ công).
  • Giới thiệu (biểu tượng ): phiên bản, hướng dẫn mua bản quyền, QR chuyển khoản thủ công.

License gắn với một máy. Hết hạn hoặc key không hợp lệ sẽ không phân tích được PDF mới.

Xử lý sự cố thường gặp
Triệu chứng Gợi ý xử lý
OCR chậm hoặc treo Giảm DPI hoặc số luồng; đóng ứng dụng khác; PDF quá lớn nên chia nhỏ.
Tách sai / thiếu văn bản Thử loại VB cụ thể thay vì Tự nhận diện; tăng DPI lên 300; kiểm tra chất lượng scan.
Số hiệu / trích yếu trống Scan mờ hoặc nghiêng; chọn đúng loại VB; thử OCR Tiếng Việt.
Lỗi khi phân tích PDF Kiểm tra Poppler/Tesseract (thư mục tools/ cạnh EXE); khởi động lại ứng dụng.
Cửa sổ trắng Cài WebView2 Runtime.