OCR Malti f'C# u .NET

Verżjonijiet oħra ta' dan id-dokument:

IronOCR huwa komponent tas-softwer C# li jippermetti lill-kodifikaturi .NET jaqraw test minn stampi u dokumenti PDF f'126 lingwa, inkluż il-Malti.

Huwa furketta avvanzata ta' Tesseract, mibnija esklussivament għall-iżviluppaturi .NET u regolarment tissupera fuq magni oħra Tesseract kemm għall-veloċità kif ukoll għall-eżattezza.

Kontenut ta' IronOcr.Languages.Maltese

Dan il-pakkett fih 46 lingwa OCR għal .NET:

  • Malti
  • Malti L-Aqwa
  • MalteseFast

Niżżel

Pakkett tal-Ilsien Malti [Malti]
* Download as Zip
* Install with as NuGet

Installazzjoni

L-ewwel ħaġa li rridu nagħmlu hi li ninstallaw il-pakkett OCR Malti tagħna għall-proġett tiegħek .NET.

PM> Install-Package IronOCR.Languages.Maltese

Eżempju ta' Kodiċi

Dan l-eżempju tal-kodiċi C# jaqra test bil-Malti minn Image jew dokument PDF.

// Import the IronOcr library
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set the language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Read the text from the specified input image
using (var Input = new OcrInput(@"images\Maltese.png"))
{
    var Result = Ocr.Read(Input);
    var AllText = Result.Text;
    // Output the extracted text
    Console.WriteLine(AllText);
}
// Import the IronOcr library
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set the language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Read the text from the specified input image
using (var Input = new OcrInput(@"images\Maltese.png"))
{
    var Result = Ocr.Read(Input);
    var AllText = Result.Text;
    // Output the extracted text
    Console.WriteLine(AllText);
}
$vbLabelText   $csharpLabel

Għaliex Agħżel IronOCR?

IronOCR huwa librerija tas-softwer .NET faċli biex tinstalla, kompluta u dokumentata sew.

Agħżel IronOCR biex tikseb 99.8%+ preċiżjoni OCR mingħajr ma tuża xi servizzi tal-web esterni, miżati kontinwi jew tibgħat dokumenti kunfidenzjali fuq l-internet.

Għaliex l-iżviluppaturi ta' C# jagħżlu IronOCR fuq Vanilla Tesseract:

  • Installa bħala DLL wieħed jew NuGet
  • Jinkludi għal Magni Tesseract 5, 4 u 3 barra mill-kaxxa.
  • L-eżattezza 99.8% tissupera b'mod sinifikanti lil Tesseract regolari.
  • Veloċità tisreġ u MultiThreading
  • MVC, WebApp, Desktop, Console & Server Applikazzjoni kompatibbli
  • Ebda kodiċi Exes jew C++ biex taħdem magħhom
  • Appoġġ PDF OCR sħiħ
  • Biex twettaq OCR kważi kull fajl Image jew PDF
  • Appoġġ sħiħ .NET Core, Standard u FrameWork
  • Skjerja fuq Windows, Mac, Linux, Azure, Docker, Lambda, AWS
  • Aqra barcodes u kodiċijiet QR
  • Esporta OCR dwar XHTML
  • Esporta OCR għal dokumenti PDF li jistgħu jitfittxu
  • Appoġġ multithreading
  • 126 lingwa internazzjonali kollha ġestiti permezz ta' fajls NuGet jew OcrData
  • Estratt Stampi, Koordinati, Statistiċi u Fonts. Mhux biss test.
  • Tista' tintuża biex tqassam mill-ġdid Tesseract OCR ġewwa applikazzjonijiet kummerċjali u proprjetarji.

IronOCR jiddi meta jaħdem bi stampi tad-dinja reali u dokumenti imperfetti bħal ritratti, jew skans ta' riżoluzzjoni baxxa li jista' jkollhom storbju jew imperfezzjonijiet diġitali.

Libreriji OCR oħra b'xejn għall-pjattaforma .NET. APIs oħra bħal dawn .net u servizzi tal-web ma jaħdmux daqshekk tajjeb f'dawn il-każijiet ta' użu fid-dinja reali.

OCR b'Tesseract 5 - Ibda Kodifika f'C#

Il-kampjun tal-kodiċi hawn taħt juri kemm hu faċli li taqra test minn stampa billi tuża C# jew VB .NET.

OneLiner

// Quick one-liner to read and extract text using IronTesseract
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Console.WriteLine(Text);
// Quick one-liner to read and extract text using IronTesseract
string Text = new IronTesseract().Read(@"img\Screenshot.png").Text;
Console.WriteLine(Text);
$vbLabelText   $csharpLabel

Hello World konfigurabbli

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add images
using (var Input = new OcrInput())
{
    Input.AddImage("images/sample.jpeg");
    // You can add any number of images
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add images
using (var Input = new OcrInput())
{
    Input.AddImage("images/sample.jpeg");
    // You can add any number of images
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

C# PDF OCR

L-istess approċċ jista' bl-istess mod jintuża biex jiġi estratt test minn kwalunkwe dokument PDF.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput to hold the input PDF file
using (var input = new OcrInput())
{
    // Add the PDF with the optional password
    input.AddPdf("example.pdf", "password");

    // OCR the input and obtain results
    var Result = Ocr.Read(input);

    // Output the text and page count
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count} Pages"); // Each page of the PDF
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput to hold the input PDF file
using (var input = new OcrInput())
{
    // Add the PDF with the optional password
    input.AddPdf("example.pdf", "password");

    // OCR the input and obtain results
    var Result = Ocr.Read(input);

    // Output the text and page count
    Console.WriteLine(Result.Text);
    Console.WriteLine($"{Result.Pages.Count} Pages"); // Each page of the PDF
}
$vbLabelText   $csharpLabel

OCR għal TIFFs MultiPage

Qari tal-OCR Il-format tal-fajl TIFF inklużi dokumenti b'ħafna paġni. TIFF jista' wkoll jiġi kkonvertit direttament f'fajl PDF b'test li jista' jitfittex.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add a multi-frame TIFF image
using (var Input = new OcrInput())
{
    input.AddMultiFrameTiff("multi-frame.tiff");
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add a multi-frame TIFF image
using (var Input = new OcrInput())
{
    input.AddMultiFrameTiff("multi-frame.tiff");
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Barcodes u QR

Karatteristika unika ta' IronOCR hija li tista' taqra barcodes u kodiċijiet QR minn dokumenti waqt li tkun qed tiskennja għal test. OcrResult.OcrBarcode Klassi OcrResult.OcrBarcode jagħtu lill-iżviluppatur informazzjoni dettaljata dwar kull barcode skannjat.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

// Create OcrInput and add image with barcode
using (var input = new OcrInput())
{
    input.AddImage("img/Barcode.png");
    var Result = Ocr.Read(input);

    // Iterate over and output the scanned barcodes
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
        // il-proprjetajiet tat-tip u tal-lok esposti wkoll
    }
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();
Ocr.Configuration.ReadBarCodes = true;

// Create OcrInput and add image with barcode
using (var input = new OcrInput())
{
    input.AddImage("img/Barcode.png");
    var Result = Ocr.Read(input);

    // Iterate over and output the scanned barcodes
    foreach (var Barcode in Result.Barcodes)
    {
        Console.WriteLine(Barcode.Value);
        // il-proprjetajiet tat-tip u tal-lok esposti wkoll
    }
}
$vbLabelText   $csharpLabel

OCR dwar Żoni Speċifiċi ta' Immaġini

Il-metodi kollha ta' skannjar u qari ta' IronOCR jipprovdu l-abbiltà li tispeċifika eżattament minn liema parti ta' paġna jew paġni nixtiequ naqraw it-test. Dan huwa utli ħafna meta qed inħarsu lejn forom standardizzati u jista' jiffranka ħafna ħin u jtejjeb l-effiċjenza.

Biex nużaw ir-reġjuni ta' l-immaġni, ser ikollna bżonn inżidu referenza tas-sistema ma'System.Drawing sabiex inkunu nistgħu nużaw l-oġġett System.Drawing.Rectangle.

using IronOcr;
using System.Drawing;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and specify the region of interest using a Rectangle
using (var Input = new OcrInput())
{
    // Define the region of interest on the page
    var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
    // Add the image with the specified region to be scanned
    Input.Add("document.png", ContentArea);

    // OCR the input and obtain results
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
using IronOcr;
using System.Drawing;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and specify the region of interest using a Rectangle
using (var Input = new OcrInput())
{
    // Define the region of interest on the page
    var ContentArea = new Rectangle() { X = 215, Y = 1250, Height = 280, Width = 1335 };
    // Add the image with the specified region to be scanned
    Input.Add("document.png", ContentArea);

    // OCR the input and obtain results
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

OCR għal Skans ta’ Kwalità Baxxa

Il-klassi tal-Ħadid OCR OcrInput tista' tiffissa skans li Tesseract normali ma jistax jaqra.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and load the low-quality image
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
    // Apply preprocessing filters
    Input.DeNoise(); // Fixes digital noise and poor scan quality
    Input.Deskew();  // Corrects rotation and perspective issues 
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and load the low-quality image
using (var Input = new OcrInput(@"img\Potter.LowQuality.tiff"))
{
    // Apply preprocessing filters
    Input.DeNoise(); // Fixes digital noise and poor scan quality
    Input.Deskew();  // Corrects rotation and perspective issues 
    var Result = Ocr.Read(Input);

    // Output the extracted text
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Esporta r-riżultati tal-OCR bħala PDF għat-Tiftix

Immaġni għal PDF b'kordi ta' test kopjabbli. Jista' jiġi indiċjat minn magni tat-tiftix u databases.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add input images
using (var Input = new OcrInput())
{
    Input.Title = "Quarterly Report";
    Input.AddImage("image1.jpeg");
    Input.AddImage("image2.png");
    Input.AddImage("image3.gif");

    // OCR the input and export as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add input images
using (var Input = new OcrInput())
{
    Input.Title = "Quarterly Report";
    Input.AddImage("image1.jpeg");
    Input.AddImage("image2.png");
    Input.AddImage("image3.gif");

    // OCR the input and export as a searchable PDF
    var Result = Ocr.Read(Input);
    Result.SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

TIFF għal Konverżjoni PDF li tista’ titfittex

Ikkonverti dokument TIFF (jew kwalunkwe grupp ta' fajls tal-immaġni) direttament għal PDF li jista’ jitfittex li jista’ jiġi indiċjat mill-intranet, il-websajt u l-magni tat-tiftix google.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add input TIFF file
using (var Input = new OcrInput())
{
    input.AddMultiFrameTiff("example.tiff");

    // OCR the input and export as a searchable PDF
    var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf");
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add input TIFF file
using (var Input = new OcrInput())
{
    input.AddMultiFrameTiff("example.tiff");

    // OCR the input and export as a searchable PDF
    var Result = Ocr.Read(input).SaveAsSearchablePdf("searchable.pdf");
}
$vbLabelText   $csharpLabel

Esporta r-riżultati tal-OCR bħala HTML

Konverżjoni tal-Immaġni OCR għal XHTML.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add input image
using (var Input = new OcrInput())
{
    Input.Title = "Html Title";
    Input.AddImage("image1.jpeg");

    // OCR the input and export as an HTML file
    var Result = Ocr.Read(input);
    Result.SaveAsHocrFile("results.html");
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and add input image
using (var Input = new OcrInput())
{
    Input.Title = "Html Title";
    Input.AddImage("image1.jpeg");

    // OCR the input and export as an HTML file
    var Result = Ocr.Read(input);
    Result.SaveAsHocrFile("results.html");
}
$vbLabelText   $csharpLabel

Filtri għat-Titjib tal-Immaġni OCR

IronOCR jipprovdi filtri uniċi għal oġġetti OcrInput biex itejbu l-prestazzjoni tal-OCR.

Eżempju tal-Kodiċi għat-Titjib tal-Immaġni

Tagħmel l-immaġini ta' input OCR ta' kwalità ogħla biex tipproduċi riżultati OCR aħjar u aktar mgħaġġla.

using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and load the low-quality image
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
    // Apply preprocessing filters
    Input.DeNoise(); // Fixes digital noise and poor scan quality
    Input.Deskew();  // Corrects rotation and perspective issues

    // Perform OCR and output results
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
using IronOcr;

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Create OcrInput and load the low-quality image
using (var Input = new OcrInput(@"LowQuality.jpeg"))
{
    // Apply preprocessing filters
    Input.DeNoise(); // Fixes digital noise and poor scan quality
    Input.Deskew();  // Corrects rotation and perspective issues

    // Perform OCR and output results
    var Result = Ocr.Read(Input);
    Console.WriteLine(Result.Text);
}
$vbLabelText   $csharpLabel

Lista ta' Filtri tal-Immaġni OCR

Filtri tal-input biex itejbu l-prestazzjoni tal-OCR li huma integrati f'IronOCR jinkludu:

  • OcrInput.Rotate (gradi doppji) - Dawwar l-immaġini b'numru ta' gradi lejn l-arloġġ. Għal kontra l-arloġġ, uża numri negattivi.
  • OcrInput.Binarize () - Dan il-filtru tal-immaġni jdawwar kull pixel iswed jew abjad mingħajr ebda triq tan-nofs. Jista' Jtejjeb il-każijiet ta' prestazzjoni OCR ta' kuntrast baxx ħafna ta' test ma' sfond.
  • OcrInput.ToGrayScale () - Dan il-filtru tal-immaġni jdawwar kull pixel fi dell ta' skala ta' griż. Mhux probabbli li ttejjeb il-preċiżjoni tal-OCR iżda tista' ttejjeb il-veloċità
  • OcrInput.Contrast () - Iżżid il-kuntrast awtomatikament. Dan il-filtru ħafna drabi jtejjeb il-veloċità u l-preċiżjoni tal-OCR fi skans ta' kuntrast baxx.
  • OcrInput.DeNoise () - Tneħħi l-istorbju diġitali. Dan il-filtru għandu jintuża biss fejn huwa mistenni l-istorbju.
  • OcrInput.Invert () - Jaqleb kull kulur. Eż. L-abjad isir iswed: l-iswed isir abjad.
  • OcrInput.Dilate () - Morfoloġija Avvanzata. Id-dilatazzjoni żżid il-pixels mal-konfini ta' oġġetti f'immaġni. Biswit l-Erode
  • OcrInput.Erode () - Morfoloġija Avvanzata. L-erożjoni tneħħi l-pixels fuq il-konfini tal-oġġett Opposite of Dilate
  • OcrInput.Deskew () - Dawwar immaġni u għalhekk hija t-triq it-tajba 'l fuq u ortogonali. Dan huwa utli ħafna għall-OCR minħabba li t-tolleranza tat-Tesseract għal skans distorti tista' tkun baxxa sa 5 gradi.
  • OcrInput.DeepCleanBackgroundNoise () - Tneħħija qawwija ta' storbju fl-isfond. Uża dan il-filtru biss f'każ li jkun magħruf storbju estrem fl-isfond tad-dokument, għax dan il-filtru jirriskja wkoll li jnaqqas il-preċiżjoni tal-OCR ta' dokumenti nodfa, u jiswa ħafna s-CPU.
  • OcrInput.EnhanceResolution - Ittejjeb ir-riżoluzzjoni ta' immaġini ta' kwalità baxxa. Dan il-filtru mhuwiex ta' spiss meħtieġ minħabba li OcrInput.MinimumDPI u OcrInput.TargetDPI awtomatikament jaqbdu u jsolvu inputs b'riżoluzzjoni baxxa.

CleanBackgroundNoise. Dan huwa ambjent li jieħu ftit ħin; madankollu, tippermetti li l-librerija tnaddaf awtomatikament ħsejjes diġitali, crumples tal-karta, u imperfezzjonijiet oħra fi ħdan immaġni diġitali li altrimenti jagħmluha inkapaċi li tinqara minn libreriji OCR oħra.

EnhanceContrast huwa issettjar li jikkawża li l-IronOCR iżid awtomatikament il-kuntrast tat-test fl-isfond ta' immaġni, iżid il-preċiżjoni tal-OCR u ġeneralment iżid il-prestazzjoni u l-veloċità tal-OCR.

EnhanceResolution huwa issettjar li awtomatikament jiskopri immaġini b'riżoluzzjoni baxxa (li huma taħt 275 dpi) u awtomatikament itejjeb l-immaġni u mbagħad ittejjeb it-test kollu sabiex ikun jista' jinqara perfettament minn librerija OCR. Għalkemm din l-operazzjoni fiha nnifisha tieħu ħafna ħin, ġeneralment tnaqqas il-ħin ġenerali għal operazzjoni OCR fuq stampa.

Language IronOCR jappoġġja 22 pakkett ta' lingwa internazzjonali, u l-issettjar tal-lingwa jista' jintuża biex tagħżel lingwa waħda jew aktar li għandhom jiġu applikati għal operazzjoni OCR.

Strateġija Ħadid OCR tappoġġja żewġ strateġiji. Aħna nistgħu nagħżlu li jew immorru għal skan mgħaġġel u inqas preċiż ta' dokument, jew nużaw strateġija avvanzata li tuża xi mudelli ta' intelliġenza artifiċjali biex awtomatikament ittejjeb l-eżattezza tat-test OCR billi tħares lejn ir-relazzjoni statistika tal-kliem lil xulxin f'sentenza.

ColorSpace huwa ambjent li bih nistgħu nagħżlu li OCR fi skala griża jew kulur. Ġeneralment, l-iskala tal-griż hija l-aħjar għażla. Madankollu, xi kultant meta jkun hemm testi jew sfondi ta' lewn simili iżda kulur differenti ħafna, spazju tal-kulur b'kulur sħiħ jipprovdi riżultati aħjar.

DetectWhiteTextOnDarkBackgrounds. Ġeneralment, il-libreriji OCR kollha jistennew li jaraw test iswed fuq sfondi bojod. Dan l-issettjar jippermetti lil IronOCR li awtomatikament jiskopri negattivi, jew paġni skuri b'test abjad, u jaqrahom.

InputImageType. Dan l-issettjar jippermetti lill-iżviluppatur jiggwida l-librerija OCR dwar jekk hux qed iħares lejn dokument sħiħ jew xi siltiet, bħal screenshot.

RotateAndStraighten huwa ambjent avvanzat li jippermetti lil IronOCR l-abbiltà unika li taqra dokumenti li mhux biss iduru, imma forsi fihom perspettiva, bħal ritratti ta' dokumenti ta' test.

ReadBarcodes hija karatteristika utli li tippermetti lill-IronOCR jaqra awtomatikament barcodes u kodiċijiet QR fuq il-paġni billi jaqra wkoll it-test, mingħajr ma jżid piż ta' ħin addizzjonali kbir.

Kulur Profond. Dan l-issettjar jiddetermina kemm bits kull pixel il-librerija OCR se tuża biex tiddetermina l-fond ta' kulur. Fond ta' kulur ogħla jista' jżid il-kwalità ta' l-OCR, iżda jżid ukoll il-ħin meħtieġ biex titlesta l-operazzjoni ta' l-OCR.

126 Pakketti Lingwistiċi

IronOCR jappoġġja 126 lingwa internazzjonali permezz ta’ pakketti lingwistiċi li huma mqassma bħala DLLs, li jistgħu jitniżżlu minn din il-websajt, jew ukoll mill- Maniġer tal-Pakketti NuGet.

Il-lingwi jinkludu Ġermaniż, Franċiż, Ingliż, Ċiniż, Ġappuniż u ħafna aktar. Pakketti lingwistiċi speċjalizzati jeżistu għal passaport MRZ, kontrolli MICR, Dejta Finanzjarja, Pjanċi tal-liċenzja u ħafna aktar. Tista' wkoll tuża kwalunkwe fajl ".traineddata" tesseract - inklużi dawk li toħloq int stess.

Eżempju tal-Lingwa

Uża lingwi OCR oħrajn.

using IronOcr;

// PM> Install IronOcr.Languages.Arabic

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Arabic
Ocr.Language = OcrLanguage.Arabic;

// Create OcrInput and add input image
using (var input = new OcrInput())
{
    input.AddImage("img/arabic.gif");

    // Optical Character Recognition (OCR)
    var Result = Ocr.Read(input);

    // Save the extracted text to a file since console cannot print Arabic easily
    Result.SaveAsTextFile("arabic.txt");
}
using IronOcr;

// PM> Install IronOcr.Languages.Arabic

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Arabic
Ocr.Language = OcrLanguage.Arabic;

// Create OcrInput and add input image
using (var input = new OcrInput())
{
    input.AddImage("img/arabic.gif");

    // Optical Character Recognition (OCR)
    var Result = Ocr.Read(input);

    // Save the extracted text to a file since console cannot print Arabic easily
    Result.SaveAsTextFile("arabic.txt");
}
$vbLabelText   $csharpLabel

Eżempju ta' Lingwa Multipla

Huwa wkoll possibbli li OCR tuża lingwi multipli fl-istess ħin. Dan jista' verament jgħin biex tikseb metadata u urls tal-lingwa Ingliża f'dokumenti Unicode.

using IronOcr;

// PM> Install IronOcr.Languages.ChineseSimplified

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set primary language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified;

// Add Maltese as secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Maltese);

// Nistgħu nżidu kwalunkwe numru ta 'lingwi

using (var input = new OcrInput())
{
    input.Add("multi-language.pdf");

    // Perform OCR and save the result to a text file
    var Result = Ocr.Read(input);
    Result.SaveAsTextFile("results.txt");
}
using IronOcr;

// PM> Install IronOcr.Languages.ChineseSimplified

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set primary language to Chinese Simplified
Ocr.Language = OcrLanguage.ChineseSimplified;

// Add Maltese as secondary language
Ocr.AddSecondaryLanguage(OcrLanguage.Maltese);

// Nistgħu nżidu kwalunkwe numru ta 'lingwi

using (var input = new OcrInput())
{
    input.Add("multi-language.pdf");

    // Perform OCR and save the result to a text file
    var Result = Ocr.Read(input);
    Result.SaveAsTextFile("results.txt");
}
$vbLabelText   $csharpLabel

Oġġetti Riżultati OCR Dettaljati

IronOCR jirritorna oġġett ta' riżultat OCR għal kull operazzjoni OCR. Ġeneralment, l-iżviluppaturi jużaw biss il-proprjetà tat-test ta' dan l-oġġett biex it-test jiġi skannjat mill-immaġni. Madankollu, ir-riżultati tal-OCR DOM huma ħafna aktar avvanzati minn dan.

using IronOcr;
using System.Drawing; // Add Reference

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Set engine mode to a combination of Tesseract and LSTM
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; // Enable barcode reading

// Create OcrInput and add a TIFF image
using (var Input = new OcrInput(@"images\sample.tiff"))
{
    OcrResult Result = Ocr.Read(Input);

    // Access detailed OCR results
    var Pages = Result.Pages;
    var Words = Pages[0].Words;
    var Barcodes = Result.Barcodes;

    // Explore API for further details:
    // - Pages, Blocks, Paragraphs, Lines, Words, Chars
    // - Image Export, Font Coordinates, Statistical Data
}
using IronOcr;
using System.Drawing; // Add Reference

// Initialize the OCR engine
var Ocr = new IronTesseract();

// Set language to Maltese
Ocr.Language = OcrLanguage.Maltese;

// Set engine mode to a combination of Tesseract and LSTM
Ocr.Configuration.EngineMode = TesseractEngineMode.TesseractAndLstm;
Ocr.Configuration.ReadBarCodes = true; // Enable barcode reading

// Create OcrInput and add a TIFF image
using (var Input = new OcrInput(@"images\sample.tiff"))
{
    OcrResult Result = Ocr.Read(Input);

    // Access detailed OCR results
    var Pages = Result.Pages;
    var Words = Pages[0].Words;
    var Barcodes = Result.Barcodes;

    // Explore API for further details:
    // - Pages, Blocks, Paragraphs, Lines, Words, Chars
    // - Image Export, Font Coordinates, Statistical Data
}
$vbLabelText   $csharpLabel

Prestazzjoni

IronOCR jaħdem barra mill-kaxxa mingħajr l-ebda ħtieġa li jtejjeb il-prestazzjoni jew jimmodifika ħafna l-immaġini tad-dħul.

Speed is Blazing: IronOcr.2020+ huwa sa 10 darbiet aktar mgħaġġel u jagħmel aktar minn 250% inqas żbalji minn builds preċedenti.

Itgħallem iżjed

Biex titgħallem aktar dwar OCR f'C#, VB, F#, jew kwalunkwe lingwa oħra .NET, jekk jogħġbok aqra t-tutorials tal-komunità tagħna, li jagħtu eżempji fid-dinja reali ta' kif IronOCR jista' jintuża u jista' juri l-isfumaturi ta' kif tikseb l-aħjar minn din il-librerija.

Referenza ta' oġġett sħiħ għal żviluppaturi .NET hija wkoll disponibbli.