Google Docs doczekało się zintegrowanego systemu OCR
Konkurencja ze strony Microsoft Office dobrze robi Dokumentom Google'a – obrastają w nowe funkcje, nie tracąc (na razie) nic ze swojej szybkości działania. Najnowszy wprowadzony do online'owego pakietu biurowego z Mountain View mechanizm to system optycznego rozpoznawania pisma (OCR), pozwalający na przekształcenie plików PDF i obrazków wgrywanych do chmury w pliki tekstowe.
Teraz użytkownicy Google Docs, wgrywając swoje pliki, zobaczą nową opcję, której zaznaczenie pozwoli im na uruchomienie skanowania OCR. Efektem tej operacji będzie utworzenie nowego pliku, zawierającego oryginalne źródło i wydobyty z niego tekst.
Niestety nie mamy obecnie żadnej możliwości konfiguracji engine'u OCR-owego, wgranie w ten sposób pliku automatycznie przekształca go w formę kombinowaną (tekst plus grafika), zamiast zapytać przynajmniej o możliwość rozbicia dokumentu na dwa oddzielne.
Jednak niemal rok prac nad engine OCR Google'a przyniósł rezultaty. Efekt – przynajmniej dla plików PDF, zawierających wizerunki czarnego tekstu na białym tle – jest bardzo dobry. Czas konwersji to zaledwie kilka sekund. Niestety formatowanie praktycznie nie zostaje zachowane. Oto przykład: fragment dokumentu PDF (treść pozwu sądowego Nero AG przeciwko MPEG LA)
Zostaje zamieniony w następujący tekst:
Jak widać, dokładność konwersji jest dość duża, jednak trudno to uznać za OCR biznesowej klasy. Mechanizm z Docs przyda się na pewno użytkownikom, którzy raz na jakiś czas potrzebują przekonwertować PDF do tekstu, ale nie pomoże tym, którzy muszą radzić sobie ze skanami faktur czy dokumentów o skomplikowanym layoucie.
Miejmy jednak nadzieję, że to nie koniec rozwoju OCR-owego engine'u – dobre komercyjne alternatywy nie są wcale tanie.
Źródło: docs.google.com
Polecamy
Reklama
Komentarze
Aby dodać komentarz, musisz podać swój nick, treść komentarza oraz poprawnie przepisać oba słowa z obrazka
(słowa muszą być rozdzielone spacją).
W treści komentarza można używać języka formatowania BBcode.
Popularne
Pobierałeś pirackie pliki? Uważaj! Kontrole antypirackie w domach użytkowników to codzienność
36
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Debata w sprawie ACTA: internauci spodziewali się chyba czegoś innego
14
Wynalazca WWW przed sądem: walczy tam o wolny dostęp do webowych technologii dla każdego
8
PHP 5.3.9 nie pozwoli hakerom zawiesić serwera. Pozwoli za to przejąć nad nim kontrolę
28
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
Internet w EU bez Facebooka i Google? Firmy nie mają wyboru: albo się dostosują, albo…
10
MSWiA zamówiło narzędzia do „złamania” Tora i podsłuchiwania internautów. Czy złamało przy tym prawo?
89
[Aktualizacja] Facebook zablokował Demotywatory.pl. W czym zawiniły?
36
FBI zamknęło Megaupload. Anonimowi dali się sprowokować. Teraz ich akcja uzasadni potrzebę SOPA?
17
Pobieraczek.pl pozwie internautów, którzy nie chcą płacić abonamentu
1455
Programowanie w środowisku Android – wprowadzenie do projektowania aplikacji dla urządzeń mobilnych
15
„Donald matole, twój rząd dopadną kibole” – hakerska elita przyłącza się do walki z ACTA
23
Klamka jeszcze nie zapadła. Minister prosi Donalda Tuska, by wstrzymał się z podpisywaniem ACTA
24
Społeczność
WebDev @slawek22
OK. Rozumiem i wiem, że koncerny stosują regionalizacje i nie...
slawek22 >są inne rodzime serwisy VOD z legalny filmami
WebDev no fakt... jeśli...
WebDev @BLACK BEAR®
"bo denerwujesz mi ludzi na forum” lool
Minister Zdrowia...
tobas ClickShop bardzo wolno działa!!!
Nie dajcie się nabrać na wygląd i...
blackbear @WebDev, widzę że muszę Ci rozjaśnić we łbie. Czytaj więc i nie pisz...
Jay Brak obsługi aplikacji x86/x64 ze zwykłych desktopów to kręcenie na siebie...
WebDev @slawek22
Tak jak ze wszystkim tak i z prawem własności można przesadzić...
- gardius: Dobra hurtownia sportowa (1)
- gardius: Tanie książki gdzie warto kupować? (1)
- Najdmen.pl: PROMOCJA, 500 DOMEN .EU ZA 1 PLN NETTO ! (1)
- VMLine: [Oferta] Serwery VPS Xen-HVM/OpenVZ z darmową administracją (2)
- Marek: Generowanie PDFa (2)
- Marek: problem z menu (2)
- Marek: Własne checkboxy w HTML,CSS (1)
Polecane książki
Praca
Czytaj Webhosting
Chcesz być na bieżąco z naszymi informacjami? Zapisz się na Newsletter.
Zarejestruj domenę
Sprawdź dostępność swojej domeny:
| .pl: | 0 zł | .com: | 19.90 zł | |
|---|---|---|---|---|
| .com.pl: | 0 zł | .eu: | 19.90 zł |












#1 i115 2010-06-22 10:03:02 0
IP: 89.76.9.[...] Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.19) Gecko/2010040119 Linux (hardy) Firefox/3.0.19
#2 eimi® 2010-06-22 10:37:37 0
IP: 95.160.206.[...] Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.70 Safari/533.4
#3 tomaszs® 2010-06-22 10:42:04 1
IP: 87.205.52.[...] Mozilla/5.0 (Windows; U; Windows NT 5.1; pl; rv:1.9.2.3) Gecko/20100401 Firefox/3.6.3
#4 eimi® 2010-06-22 11:25:48 0
IP: 95.160.206.[...] Mozilla/5.0 (X11; U; Linux x86_64; en-US) AppleWebKit/533.4 (KHTML, like Gecko) Chrome/5.0.375.70 Safari/533.4