PDFEX giúp bóc tách và số hóa hồ sơ lưu trữ từ file PDF scan nhiều văn bản. Ứng dụng dùng OCR (Tesseract) để đọc nội dung, tự nhận diện ranh giới từng văn bản (theo quốc hiệu, số hiệu…), tách thành file PDF riêng và xuất bảng kê kèm báo cáo JSON/HTML.
| Mục | Mô tả | Ví dụ |
|---|---|---|
| Mã đơn vị | Tiền tố đặt tên file PDF đầu ra; tự điền khi chọn loại văn bản. | H38.141 |
| Loại văn bản | Quy tắc nhận diện số hiệu, loại VB. Tự nhận diện phù hợp hồ sơ hỗn hợp. | QĐ, TTr, CV… |
| Phông | Số phông 6 chữ số (tùy chọn), định dạng giống số thứ tự tài liệu; nằm giữa mã đơn vị và phiên bản. | 000068 |
| Phiên bản | Phiên bản bóc tách / lần số hóa. | v1 |
| Ngày scan | Ngày scan hồ sơ, định dạng yyyymmdd. |
20260607 |
| DPI | Độ phân giải khi chuyển PDF → ảnh để OCR. 200 là cân bằng tốc độ/chất lượng; 300 cho scan mờ. | 150 / 200 / 300 |
| OCR | Ngôn ngữ nhận dạng: Tiếng Việt hoặc English. | Việt Nam |
| Luồng | Số luồng OCR song song (1–4). Tăng nhanh hơn nhưng tốn RAM/CPU. | 2 |
Tên file xuất ra theo mẫu MãĐV_Loạivănbản_Phông_PhiênBản_NgàyScan_STT.pdf
(ví dụ có phông: H38.141_QĐ_000068_v1_20260607_000001.pdf;
bỏ trống phông: H38.141_QĐ_v1_20260607_000001.pdf).
STT (ví dụ 000001) là số thứ tự tài liệu trong hồ sơ — 6 chữ số, phần mềm tự đánh theo thứ tự văn bản tách được.
Sau khi hoàn tất, trong thư mục kết quả có:
Trên giao diện:
Bấm Loại VB trên thanh menu để xem danh sách profile nhận diện (mã, nhãn, tiền tố mặc định, mẫu số hiệu…). Chọn đúng loại giúp OCR nhận số hiệu và phân đoạn chính xác hơn.
Mở danh sách loại văn bảnLicense gắn với một máy. Hết hạn hoặc key không hợp lệ sẽ không phân tích được PDF mới.
| Triệu chứng | Gợi ý xử lý |
|---|---|
| OCR chậm hoặc treo | Giảm DPI hoặc số luồng; đóng ứng dụng khác; PDF quá lớn nên chia nhỏ. |
| Tách sai / thiếu văn bản | Thử loại VB cụ thể thay vì Tự nhận diện; tăng DPI lên 300; kiểm tra chất lượng scan. |
| Số hiệu / trích yếu trống | Scan mờ hoặc nghiêng; chọn đúng loại VB; thử OCR Tiếng Việt. |
| Lỗi khi phân tích PDF | Kiểm tra Poppler/Tesseract (thư mục tools/ cạnh EXE); khởi động lại ứng dụng. |
| Cửa sổ trắng | Cài WebView2 Runtime. |