עד כמה גוגל מתייחסת לPDF , לכאורה זה נראה קריא ומאונדקס לחלוטין, אבל לא בדיוק,
עד כמה גוגל קשורה ומפעילה כלי OCR, ישנם פרסומים שונים,
בדקתי קבצים השוכנים כבוד בבית של הפידיאפים SCRIBD דוט קום.
משום מה דמיינתי שזרועות התמנון של גוגל לא תחמיץ ביט\פונט אחד, לכן הלכתי על עברית, חפשתי טקסט המופיע בתוך אמצע קובץ עברי כשהקובץ הינו PDF טקסטואלי שאני העלתי, גוגל אכלה אותו ופלטה תוך רבע שעה תשובות מדוייקות, כשההעלתי אותו בPDF לא טקסטואלי דהיינו פורמט תמונה, גוגל לא מכירה,
הלכתי על אנגלית, לא היה לי עצבים להעלות, חפשתי מתוך קובץ אנגלי בפורמט תמונה, גוגל לא מזהה, עד כאן: גוגל אוכל PDF אולם תמונות לא שזה אומר OCR לא בשימוש, מסקנא מעשית אם תעלו PDF וודאו שיהיה טקסטואלי.
לומר שהתמנון ממאונטן וויו לא חובש משקפי OCR? עוד לא, בקישור הבא תוכלו להאכיל את הOCR של גוגל בפעולה רצחנית, רק באנגלית ומצריך רישום לשרותי מדינת גוגל:
http://googlecodesamples.com/docs/php/ocr.php
העלתי לשם קובץ עברי, תחנת גוגל אינה עונה, אנגלית הוא קרא תוך שניות ובדייקנות מטורפת,
זה מה שאומר שהאליגוריתם הOCR שלהם בשל ברמות על, למה על? ומאיפה השיגו אותו? כל העולם ואשתו כיילו אותו ידנית זיליוני פעמים:
http://www.talgalili.com/?p=1100
מה יהיה השלב הבא, ומהו? אפשר רק לנחש, אם כי זה לא בדיוק משמעותי עבורינו, מה כן? אם תרצו להמיר בOCR חינמי מעולה, הנה הכתובת,
לא התאפקתי ובדקתי גם קובץ אנטי OCR מהפרוייקט שלי כאן:
http://www.prog.co.il/showthread.php?t=47420
כמובן שהתג'ברש לה העסק, מילים שלמות אך סדר מעורר פלצות.
עד כמה גוגל קשורה ומפעילה כלי OCR, ישנם פרסומים שונים,
בדקתי קבצים השוכנים כבוד בבית של הפידיאפים SCRIBD דוט קום.
משום מה דמיינתי שזרועות התמנון של גוגל לא תחמיץ ביט\פונט אחד, לכן הלכתי על עברית, חפשתי טקסט המופיע בתוך אמצע קובץ עברי כשהקובץ הינו PDF טקסטואלי שאני העלתי, גוגל אכלה אותו ופלטה תוך רבע שעה תשובות מדוייקות, כשההעלתי אותו בPDF לא טקסטואלי דהיינו פורמט תמונה, גוגל לא מכירה,
הלכתי על אנגלית, לא היה לי עצבים להעלות, חפשתי מתוך קובץ אנגלי בפורמט תמונה, גוגל לא מזהה, עד כאן: גוגל אוכל PDF אולם תמונות לא שזה אומר OCR לא בשימוש, מסקנא מעשית אם תעלו PDF וודאו שיהיה טקסטואלי.
לומר שהתמנון ממאונטן וויו לא חובש משקפי OCR? עוד לא, בקישור הבא תוכלו להאכיל את הOCR של גוגל בפעולה רצחנית, רק באנגלית ומצריך רישום לשרותי מדינת גוגל:
http://googlecodesamples.com/docs/php/ocr.php
העלתי לשם קובץ עברי, תחנת גוגל אינה עונה, אנגלית הוא קרא תוך שניות ובדייקנות מטורפת,
זה מה שאומר שהאליגוריתם הOCR שלהם בשל ברמות על, למה על? ומאיפה השיגו אותו? כל העולם ואשתו כיילו אותו ידנית זיליוני פעמים:
http://www.talgalili.com/?p=1100
מה יהיה השלב הבא, ומהו? אפשר רק לנחש, אם כי זה לא בדיוק משמעותי עבורינו, מה כן? אם תרצו להמיר בOCR חינמי מעולה, הנה הכתובת,
לא התאפקתי ובדקתי גם קובץ אנטי OCR מהפרוייקט שלי כאן:
http://www.prog.co.il/showthread.php?t=47420
כמובן שהתג'ברש לה העסק, מילים שלמות אך סדר מעורר פלצות.