Pre-loader


Роспізнавання JPG в Excel

 Для розпізнавання сканованого документа та конвертації його в формат Excel в Python на українській мові вам знадобиться використати бібліотеку OCR (операції оптичного розпізнавання символів) та бібліотеку для роботи з форматом Excel. Ось загальний опис процесу:

  1. Встановіть необхідні бібліотеки. Використовуйте команду pip для встановлення бібліотеки pytesseract і бібліотеки openpyxl для роботи з форматом Excel. Виконайте такі команди у терміналі: 
    pip install pytesseract
    pip install openpyxl
    

  2. Завантажте сканований документ на сервер або вкажіть шлях до файлу на локальному комп'ютері.
  3. Використайте бібліотеку pytesseract для розпізнавання тексту зі сканованого зображення. Ось приклад коду Python:
    import pytesseract
    
    # Встановіть шлях до виконуваного файлу Tesseract OCR
    pytesseract.pytesseract.tesseract_cmd = r`C:Program FilesTesseract-OCR	esseract.exe`
    
    # Завантажте зображення та розпізнайте текст
    image_path = `path/to/scanned_image.jpg`
    text = pytesseract.image_to_string(image_path, lang=`ukr`)
    

  4. Використайте бібліотеку openpyxl для створення та заповнення даними Excel-файлу. Ось приклад коду для створення та заповнення Excel-файлу: 
    from openpyxl import Workbook
    
    # Створіть робочу книгу та аркуш
    workbook = Workbook()
    sheet = workbook.active
    
    # Розбийте текст на рядки та стовпці
    lines = text.split(`
    `)
    for i, line in enumerate(lines, start=1):
        columns = line.split(`	`)
        for j, column in enumerate(columns, start=1):
            sheet.cell(row=i, column=j).value = column
    
    # Збережіть Excel-файл
    output_path = `output.xlsx`
    workbook.save(output_path)
    

  5. Після виконання коду ви отримаєте Excel-файл зі сканованим текстом. Ви можете відкрити цей файл у програмі Excel, щоб переглянути результат.

Це загальний підхід до розпізнавання сканованого документа та конвертації його в формат Excel в Python

Автор: Рудюк С.А. 2023. K2 Cloud ERP.