Cuidíonn Teicneolaíocht OCR le Forbairt an Aistriúcháin Teanga

Aug 15, 2022 Fág nóta

Cad é OCR?

Tagraíonn Aitheantas Optúil Carachtair (OCR) don phróiseas ina ndéantar íomhánna téacs a thiontú go formáid téacs atá inléite ag meaisín. Mar shampla, má scanadh tú foirm nó admháil, sábhálann an ríomhaire an scanadh mar chomhad íomhá. Ní féidir leat téacs a chur in eagar, a chuardach ná a chomhaireamh i gcomhad íomhá trí úsáid a bhaint as eagarthóir téacs. Mar sin féin, is féidir leat OCR a úsáid chun íomhánna a thiontú ina ndoiciméid téacs agus ábhar a stóráil mar shonraí téacs.

png

Cén fáth a bhfuil OCR chomh tábhachtach sin?

Baineann formhór na sreafaí oibre gnó le teacht ar fhaisnéis trí na meáin chlóite. Is cuid den phróiseas gnó iad foirmeacha páipéir, sonraisc, doiciméid dlí scanta, agus conarthaí clóite. Tógann sé go leor ama agus spáis chun na doiciméid ollmhóra seo a stóráil agus a bhainistiú. In ainneoin na treochta i dtreo bainistíocht doiciméad gan pháipéar, tá sé fós dúshlánach doiciméid a scanadh go híomhánna. Éilíonn an próiseas idirghabháil an duine, tá sé achrannach agus mall.

Ina theannta sin, is féidir comhaid íomhá le téacs ceilte a bheith mar thoradh ar ábhar doiciméad a dhigitiú. Ní féidir le próiseálaithe focal téacs a phróiseáil in íomhánna ar an mbealach céanna le doiciméid téacs. Réitíonn OCR an fhadhb seo trí íomhánna téacs a thiontú go sonraí téacs ar féidir le bogearraí tráchtála eile anailís a dhéanamh orthu. Is féidir leat na sonraí a úsáid ansin chun anailís a dhéanamh, oibríochtaí a fheabhsú, próisis a uathoibriú, agus táirgiúlacht a mhéadú.

7d9be6872456af033802d073206010b

Conas a oibríonn OCR?


Fáil Íomhá

Léann scanóirí doiciméid agus déanann siad na doiciméid sin a thiontú ina sonraí dénártha. Déanann bogearraí OCR anailís ar an íomhá scanta, ag rangú réimsí solais mar chúlra agus réimsí dorcha mar théacs.

réamhphróiseáil

Glanann na bogearraí OCR an íomhá ar dtús agus cuireann sé deireadh le hearráidí san ullmhúchán don léitheoireacht. Seo roinnt teicnící glantacháin a úsáidtear chun é:

Ceartú nó sceabhadh beag ar dhoiciméid scanta le linn scanadh chun saincheisteanna ailínithe a réiteach.

Bain torann, bain breacanna as íomhánna digiteacha, nó réidh imill na n-íomhánna téacs.

Glan suas teorainneacha agus línte san íomhá.

Aitheantas Script le Teicneolaíocht OCR Ilteangach

Aitheantas téacs

Is iad an dá phríomhchineál algartam OCR nó próisis bogearraí a úsáideann bogearraí OCR chun téacs a aithint ná meaitseáil patrún agus eastóscadh gnéithe.


Meaitseáil patrún

Scarann ​​meaitseáil patrún íomhá de charachtar (ar a dtugtar glyph) agus cuireann sé i gcomparáid é le glyphs stóráilte den chineál céanna. Ní oibríonn meaitseáil patrún ach amháin má tá cló agus méid comhchosúil ag an glyph stóráilte agus atá ag an glyph ionchuir. Oibríonn an modh seo go maith le haghaidh íomhánna scanta de dhoiciméid a iontráladh i gclónna aitheanta.


Eastóscadh gné

Déanann eastóscadh gné deighleoga nó díscaoileann sé glyphs i ngnéithe cosúil le línte, lúb dúnta, treoshuíomh líne, agus fócas líne. Úsáideann sé na gnéithe seo ansin chun an meaitseáil is fearr nó is gaire a fháil i measc na glyphs stóráilte éagsúla.


Iarphróiseáil

Tar éis anailís a dhéanamh, déanann an córas na sonraí téacs a bhaintear a thiontú go comhaid ríomhairithe. Is féidir le roinnt córas OCR comhaid PDF anótáilte a chruthú ina bhfuil leaganacha réamhscagtha agus iar-scagtha de dhoiciméid scanta.