'Fitz' 태그의 글 목록

728x90

Fitz 6

[회사원] 업무 코딩기록 - (Fitz, Tesseract-OCR) PDF OC

import fitzimport os# TESSDATA_PREFIX 환경 변수 설정 (Tesseract 설치 경로에 맞게 수정)os.environ['TESSDATA_PREFIX'] = 'C://Program Files//Tesseract-OCR//tessdata//'# 입력 및 출력 폴더 설정input_folder = "pdf_raw"output_folder = "pdf_result"# 출력 폴더가 존재하지 않으면 생성os.makedirs(output_folder, exist_ok=True)# 입력 폴더의 모든 PDF 파일 처리for filename in os.listdir(input_folder): if filename.endswith(".pdf"): pdf_path = os.path..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (Fitz) pdf 텍스트 삽입 후 저장

import fitzimport os# 입력 및 출력 폴더 설정input_folder = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_raw"output_folder = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_result"# 출력 폴더가 존재하지 않으면 생성os.makedirs(output_folder, exist_ok=True)# 입력 폴더의 모든 PDF 파일 처리for filename in os.listdir(input_folder): if filename.endswith(".pdf"): pdf_path = os.path.join(input_folder, filen..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (Fitz, Pandas) pdf에서 표 추출(.csv)

# import package PyMuPDF and pandasimport fitz import pandas as pdimport os# Define input and output directoriesinput_folder = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_raw"output_folder = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_result"# Create the output directory if it doesn't existos.makedirs(output_folder, exist_ok=True)# Open the PDF documentdoc = fitz.open(..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (Fitz)PDF 문서에서 이미지 추출

# Import PyMuPDF and osimport fitzimport os# File path you want to extract images fromfile = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_raw\test.pdf"# Create a directory to save the extracted imagesoutput_dir = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_result"os.makedirs(output_dir, exist_ok=True)# Open the filepdf_file = fitz.open(file)# Iterate over PDF pagesfor pa..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (Fitz) pdf 텍스트 추출, 텍스트 분석

# Import PyMuPDFimport fitz # Open a PDF filepdf_document = r"C:\Users\user\Desktop\VSCode(python)\(CODE)PDF,OCR\pdf_raw\test.pdf"doc = fitz.open(pdf_document)# Initialize an empty string to store extracted textextracted_text = ""# Iterate through each page and extract textfor page_num in range(doc.page_count): page = doc[page_num] extracted_text += page.get_text() # Close the PDF docu..

직장인 2024.12.20

[회사원] 업무 코딩기록 - (fitz)To IMG(png, jpg)

import fitzimport os# PDF 파일 경로 설정folder_path = "C:\\Users\\user\\Desktop\\VSCode(python)\\(CODE)PDF,OCR\\pdf_raw"file_path = os.path.join(folder_path, "test.pdf")# 결과물을 저장할 폴더 경로 설정result_folder = "C:\\Users\\user\\Desktop\\VSCode(python)\\(CODE)PDF,OCR\\pdf_result"os.makedirs(result_folder, exist_ok=True) # 결과 폴더가 없으면 생성# PDF 파일 열기doc = fitz.open(file_path)# 각 페이지를 PNG로 추출하여 저장for i, page in ..

직장인 2024.12.20

아빠의 관심사

개인적인 취미공간입니다.

250x250

이풋볼2025, 일상의코딩님, auto copy&paste, vs-code, pandas, Python, Fitz, 삼국지8re, pyhwpx, 감사합니다., pdfminer, BMW, 일코(ilco), pyautogui, vscode, BMW X5, jupyter, 유비, pytesseract, selenium,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Fitz 6

티스토리툴바