728x90
반응형

Fitz 6

[회사원] 업무 코딩기록 - (Fitz, Tesseract-OCR) PDF OC

import fitzimport os# TESSDATA_PREFIX 환경 변수 설정 (Tesseract 설치 경로에 맞게 수정)os.environ['TESSDATA_PREFIX'] = 'C://Program Files//Tesseract-OCR//tessdata//'# 입력 및 출력 폴더 설정input_folder = "pdf_raw"output_folder = "pdf_result"# 출력 폴더가 존재하지 않으면 생성os.makedirs(output_folder, exist_ok=True)# 입력 폴더의 모든 PDF 파일 처리for filename in os.listdir(input_folder):    if filename.endswith(".pdf"):        pdf_path = os.path..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (Fitz) pdf 텍스트 삽입 후 저장

import fitzimport os# 입력 및 출력 폴더 설정input_folder = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_raw"output_folder = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_result"# 출력 폴더가 존재하지 않으면 생성os.makedirs(output_folder, exist_ok=True)# 입력 폴더의 모든 PDF 파일 처리for filename in os.listdir(input_folder):    if filename.endswith(".pdf"):        pdf_path = os.path.join(input_folder, filen..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (Fitz) pdf 텍스트 추출, 텍스트 분석

# Import PyMuPDFimport fitz  # Open a PDF filepdf_document = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_raw\test.pdf"doc = fitz.open(pdf_document)# Initialize an empty string to store extracted textextracted_text = ""# Iterate through each page and extract textfor page_num in range(doc.page_count):    page = doc[page_num]    extracted_text += page.get_text()    # Close the PDF docu..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (fitz)To IMG(png, jpg)

import fitzimport os# PDF 파일 경로 설정folder_path = "C:\\Users\\user\\Desktop\\VSCode(python)\\(CODE)PDF,OCR\\pdf_raw"file_path = os.path.join(folder_path, "test.pdf")# 결과물을 저장할 폴더 경로 설정result_folder = "C:\\Users\\user\\Desktop\\VSCode(python)\\(CODE)PDF,OCR\\pdf_result"os.makedirs(result_folder, exist_ok=True)  # 결과 폴더가 없으면 생성# PDF 파일 열기doc = fitz.open(file_path)# 각 페이지를 PNG로 추출하여 저장for i, page in ..

직장인 2024.12.20
728x90
반응형