tesseract
| Введение | |
| Скачать | |
| Установить | |
| Добавить в PATH | |
| Узнать версию | |
| PowerShell | |
| Похожие статьи |
Введение
Скачать
Версии для
Windows
можно скачать с сайта университета Маннхейма
uni-mannheim.de
Github
репозиторий находится
здесь
Установка
Рассмотрим установку на примере
tesseract-ocr-w64-setup-v5.3.0.20221214.exe
Стандартные директории, в которые устанавливается Tesseract это либо
C:\Program Files\Tesseract-OCR
либо
C:\Users\Username\AppData\Local\Programs\Tesseract-OCR
Вместо Username будет ваше имя пользователя .
Выберите язык
https://devhops.ru
Нажмите Next >
https://devhops.ru
Нажмите I Agree
https://devhops.ru
Нажмите Next >
https://devhops.ru
Нажмите Next >
https://devhops.ru
Нажмите Next >
https://devhops.ru
Нажмите Install
https://devhops.ru
Нажмите Next >
https://devhops.ru
Нажмите Finish
https://devhops.ru
Добавить в PATH
Добавить путь до Tesseract в системную переменную PATH можно командой PowerShell
$Env:Path += ';C:/Program Files/Tesseract-OCR'
В Git Bash
export PATH="/c/Program Files/Tesseract-OCR:$PATH"
PowerShell скрипт, который проверяет в какую из двух типичных директорий установлен Tesseract и добавляет в PATH именно её:
$PF_PATH = "C:\Program Files\Tesseract-OCR" $CURRENT_USER = $Env:Username $APP_PATH = 'C:\Users\' + $CURRENT_USER + '\AppData\Local\Programs\Tesseract-OCR;' if (Test-Path -path $APP_PATH) { Write-Host "$APP_PATH dir exists - adding to path" -f Green $Env:Path = $APP_PATH + $Env:Path } elseif (Test-Path -path $PF_PATH) { # Write-Host "$APP_PATH dir does not exists " -f Yellow Write-Host "$PF_PATH dir exists - adding to path" -f Green $Env:Path += ';C:\Program Files\Tesseract-OCR' } else { Write-Host "No Tesseract-OCR dir found in typical locations" -f Red }
Узнать версию
Узнать версию Tesseract можно командой PowerShell
tesseract --version
tesseract v5.3.0.20221214 leptonica-1.78.0 libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.3.0 Found AVX2 Found AVX Found FMA Found SSE4.1 Found libarchive 3.5.0 zlib/1.2.11 liblzma/5.2.3 bz2lib/1.0.6 liblz4/1.7.5 libzstd/1.4.5 Found libcurl/7.77.0-DEV Schannel zlib/1.2.11 zstd/1.4.5 libidn2/2.0.4 nghttp2/1.31.0
Установка с PowerShell
PowerShell скрипт, который скачивает и устанавливает Tesseract и добавляет его в путь. Каждый шаг предварительно проверяет нужно ли это действие.
function Get-TesseractInstallPath { $paths = @( "C:\Program Files\Tesseract-OCR", "$Env:LOCALAPPDATA\Programs\Tesseract-OCR" ) foreach ($p in $paths) { if (Test-Path $p) { return $p } } return $null } function Is-TesseractInPath { $installPath = Get-TesseractInstallPath if (-not $installPath) { return $false } $exe = Join-Path $installPath "tesseract.exe" return (Test-Path $exe) } function Ensure-TesseractInSystemPath { $installPath = Get-TesseractInstallPath if (-not $installPath) { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') No Tesseract installation found." return } $machinePath = [Environment]::GetEnvironmentVariable("Path", "Machine") if ($machinePath -notlike "*$installPath*") { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') Adding $installPath to system PATH." $newPath = "$machinePath;$installPath" [Environment]::SetEnvironmentVariable("Path", $newPath, "Machine") } else { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') PATH already contains Tesseract." } } function Download-TesseractInstaller { $url = "https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v5.3.0.20221214.exe" $installer = "$Env:USERPROFILE\Desktop\tesseract-installer.exe" if (Test-Path $installer) { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') Installer already downloaded." } else { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') Downloading installer..." Invoke-WebRequest $url -OutFile $installer } return $installer } function Install-Tesseract { if (Is-TesseractInPath) { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') Tesseract already installed." return } $installer = Download-TesseractInstaller Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') Running silent installer..." Start-Process -FilePath $installer -ArgumentList "/S" -Wait Start-Sleep -Seconds 3 if (Is-TesseractInPath) { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') Installation successful." Ensure-TesseractInSystemPath } else { Write-Output "$(Get-Date -Format 'yyyy-MM-dd HH:mm:ss') Installation failed or path not found." } } Install-Tesseract
Автор статьи: Андрей Олегович
| OCR | |
| OCR в Python |