publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
4 skomentuj »

TAGI: google docs , ocr , pakiet biurowy

2010-06-22 09:00  |  Adam Golański

Google Docs doczekało się zintegrowanego systemu OCR

Google Docs doczekało się zintegrowanego systemu OCR

Konkurencja ze strony Microsoft Office dobrze robi Dokumentom Google'a – obrastają w nowe funkcje, nie tracąc (na razie) nic ze swojej szybkości działania. Najnowszy wprowadzony do online'owego pakietu biurowego z Mountain View mechanizm to system optycznego rozpoznawania pisma (OCR), pozwalający na przekształcenie plików PDF i obrazków wgrywanych do chmury w pliki tekstowe.

Teraz użytkownicy Google Docs, wgrywając swoje pliki, zobaczą nową opcję, której zaznaczenie pozwoli im na uruchomienie skanowania OCR. Efektem tej operacji będzie utworzenie nowego pliku, zawierającego oryginalne źródło i wydobyty z niego tekst.

Niestety nie mamy obecnie żadnej możliwości konfiguracji engine'u OCR-owego, wgranie w ten sposób pliku automatycznie przekształca go w formę kombinowaną (tekst plus grafika), zamiast zapytać przynajmniej o możliwość rozbicia dokumentu na dwa oddzielne.

Jednak niemal rok prac nad engine OCR Google'a przyniósł rezultaty. Efekt – przynajmniej dla plików PDF, zawierających wizerunki czarnego tekstu na białym tle – jest bardzo dobry. Czas konwersji to zaledwie kilka sekund. Niestety formatowanie praktycznie nie zostaje zachowane. Oto przykład: fragment dokumentu PDF (treść pozwu sądowego Nero AG przeciwko MPEG LA)

Zostaje zamieniony w następujący tekst:

Jak widać, dokładność konwersji jest dość duża, jednak trudno to uznać za OCR biznesowej klasy. Mechanizm z Docs przyda się na pewno użytkownikom, którzy raz na jakiś czas potrzebują przekonwertować PDF do tekstu, ale nie pomoże tym, którzy muszą radzić sobie ze skanami faktur czy dokumentów o skomplikowanym layoucie.

Miejmy jednak nadzieję, że to nie koniec rozwoju OCR-owego engine'u – dobre komercyjne alternatywy nie są wcale tanie.

Źródło: docs.google.com

publikuj: Opublikuj w wykop.pl Opublikuj we flaker.pl Opublikuj na OSnews.pl Opublikuj w delicious wydrukuj
4 skomentuj »

Polecamy

Reklama

Komentarze

  • i115

    #1 i115 2010-06-22 10:03:02 0

    Do przerobienia pdfa na tekst, ocr nie jest potrzebny.

    Pdf to plik tekstowy zawierający formatowanie i obrazki, dokładnie tak samo jak np odt czy rtf.

    OCR wykorzystywany jest wyłacznie do przetwarzania obrazków.

    IP: 89.76.9.[...] Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.19) Gecko/2010040119 Linux (hardy) Firefox/3.0.19

  • eimi

    #2 eimi® 2010-06-22 10:37:37 0

    PDF to nie jest plik tekstowy tylko kontener dokumentu. Może być w nim tekst - ale nie musi. Jeśli korzystałeś kiedyś z np. bibliotek naukowych za paywallami to pewnie wiesz, że znaleziony artykuł to zwykle poskanowane TIFF-y wpakowane do PDF-a. Użyty w krótkim teście dokument to właśnie coś takiego było: skan papierowego dokumentu wrzucony do PDF-a.

    IP: 95.160.206.[...] Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.70 Safari/533.4

  • tomaszs

    #3 tomaszs® 2010-06-22 10:42:04 1

    Na pewno przyda się osobom korzystającym z dokumentów rządowych - wiecie, chodzi o te PDF powstałe w wyniku wydrukowania tekstu z Worda i zeskanowania wydruku do postaci obrazu w PDF.

    IP: 87.205.52.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3

  • eimi

    #4 eimi® 2010-06-22 11:25:48 0

    Ano Tomaszu, to jest w końcu jedyna słuszna ścieżka obiegu dokumentów :>. Pamiętam współpracę z wydawnictwem Uniwersytetu Wrocławskiego. Dostali teksty pięknie zadiustowane, złożone, w PDF, do druku... na wyjściu była kaszanka. Co się stało? Ano była tam pani, która ręcznie przepisywała teksty.

    IP: 95.160.206.[...] Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.70 Safari/533.4

Uwaga! Możesz zarejestrować się w serwisie i w ten sposób zarezerwować swój nick oraz ominąć konieczność ciągłego odczytywania wyrazów.

Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka (słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.

Polecane książki

Czytaj Webhosting

Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.

Zarejestruj domenę

Sprawdź dostępność swojej domeny:

.pl: 0 zł   .com: 19.90 zł
.com.pl: 0 zł   .eu: 19.90 zł