Konwersja plików PDF – wskazówki dotyczące OCR
Wskazówki dotyczące uzyskiwania doskonałych konwersji OCR
Choć optyczne rozpoznawanie znaków (OCR) jest imponujące, nie jest idealne i wymaga pewnej staranności, aby uzyskać oczekiwane rezultaty. Podobnie jak w przypadku wcześniejszych przygotowań niezbędnych do konwersji pliku PDF do Excela, istnieje również kilka niepisanych zasad dotyczących konwersji zeskanowanych plików. Poniżej znajdziesz przydatną listę kontrolną, która równie dobrze sprawdza się w przypadku konwersji z formatu PDF do DOCX i PDF do XLSX.
Aby zoptymalizować dokument na potrzeby rozpoznawania znaków (OCR):
Ręcznie dostosuj obrót strony, jeśli jest to konieczne. Oprócz tego, że dokument końcowy stanie się łatwiejszy do odczytania, poprawi to również dokładność wyodrębnionego tekstu.
Używaj obrazów o wysokiej rozdzielczościObrazy powinny być idealnie w formacie PNG i czytelne bez nadmiernego obciążenia oczu, ale pliki JPEG sprawdzają się równie dobrze. Im wyraźniejszy obraz, tym lepszy efekt konwersji.
Dołącz formatowanie, które ściśle odpowiada formatowi wyjściowemu (np. tabele, które przypominają formatowanie w Excelu). To prawdopodobnie najważniejszy czynnik zapewniający wierne odtworzenie oryginalnego pliku PDF w formacie DOCX lub XLSX.