728x90
반응형

pytesseract 3

[회사원] 업무코딩 기록 - (PyTesseract) OCR Read_Find(성명)열(계약서)(전처리추가)

■ 코드 설명raw폴더의 계약서 양식(1명분)인 test.pdf 파일을 OCR로 인식, 식별자인 성명을 추출하기 위한 성명 주변의 텍스트인 ") 과"의 텍스트 열 번호를 추출※ 기존 버전 대비 opencv 전처리 추가import pytesseractfrom pdf2image import convert_from_pathimport osimport cv2import numpy as np# Tesseract 경로 설정 (Windows)pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'def preprocess_image(image):    """이미지를 전처리하여 OCR 정확도를 높이는 함수"""    i..

직장인 2025.04.03

[회사원] 업무 코딩기록 - (PyTesseractOCR)Sorting_FIle Rename

import osimport pytesseractfrom pdf2image import convert_from_pathfrom pypdf import PdfWriter, PdfReaderimport re# Tesseract 경로 설정 (Windows의 경우)pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"# raw / result 폴더 경로 설정 (파일이 실제로 존재하는 경로로 수정)raw_dir = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_raw"result_dir = r"C:\Users\user\Desktop\VSCode(python)..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (PyTesseractOCR)Read_Find(성명)열

import pytesseractfrom pdf2image import convert_from_pathimport os# Tesseract 경로 설정 (Windows의 경우)pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'def ocr_from_pdf(pdf_path):    if not os.path.exists(pdf_path):        print(f"PDF 파일이 존재하지 않습니다: {pdf_path}")        return None    try:        # PDF 파일을 이미지로 변환 (DPI 설정)        images = convert_from_path(pdf_path..

직장인 2024.12.20
728x90
반응형