גוגל, PDF, OCR,

מקארתור · 6/5/10

עד כמה גוגל מתייחסת לPDF , לכאורה זה נראה קריא ומאונדקס לחלוטין, אבל לא בדיוק,
עד כמה גוגל קשורה ומפעילה כלי OCR, ישנם פרסומים שונים,
בדקתי קבצים השוכנים כבוד בבית של הפידיאפים SCRIBD דוט קום.
משום מה דמיינתי שזרועות התמנון של גוגל לא תחמיץ ביט\פונט אחד, לכן הלכתי על עברית, חפשתי טקסט המופיע בתוך אמצע קובץ עברי כשהקובץ הינו PDF טקסטואלי שאני העלתי, גוגל אכלה אותו ופלטה תוך רבע שעה תשובות מדוייקות, כשההעלתי אותו בPDF לא טקסטואלי דהיינו פורמט תמונה, גוגל לא מכירה,
הלכתי על אנגלית, לא היה לי עצבים להעלות, חפשתי מתוך קובץ אנגלי בפורמט תמונה, גוגל לא מזהה, עד כאן: גוגל אוכל PDF אולם תמונות לא שזה אומר OCR לא בשימוש, מסקנא מעשית אם תעלו PDF וודאו שיהיה טקסטואלי.
לומר שהתמנון ממאונטן וויו לא חובש משקפי OCR? עוד לא, בקישור הבא תוכלו להאכיל את הOCR של גוגל בפעולה רצחנית, רק באנגלית ומצריך רישום לשרותי מדינת גוגל:
http://googlecodesamples.com/docs/php/ocr.php

העלתי לשם קובץ עברי, תחנת גוגל אינה עונה, אנגלית הוא קרא תוך שניות ובדייקנות מטורפת,
זה מה שאומר שהאליגוריתם הOCR שלהם בשל ברמות על, למה על? ומאיפה השיגו אותו? כל העולם ואשתו כיילו אותו ידנית זיליוני פעמים:
http://www.talgalili.com/?p=1100
מה יהיה השלב הבא, ומהו? אפשר רק לנחש, אם כי זה לא בדיוק משמעותי עבורינו, מה כן? אם תרצו להמיר בOCR חינמי מעולה, הנה הכתובת,
לא התאפקתי ובדקתי גם קובץ אנטי OCR מהפרוייקט שלי כאן:
http://www.prog.co.il/showthread.php?t=47420
כמובן שהתג'ברש לה העסק, מילים שלמות אך סדר מעורר פלצות.

דינקיס · 7/5/10

אחלה פוסט הבאת.
ידוע ש PDF טקסטואלי גוגל קורא מעולה כבר הרבה זמן, ואפילו רצוי לתת תיאורים מתאימים לכותרות כדי שגוגל יאכל את הPDF יותר טוב לצורכי SEO.
בעניין OCR, לדעתי כמו שכתבת לגוגל ברור שיש את הטכנולוגיה המתאימה לזה, והצהרתה לפני כמה חודשים שהיא יודעת לפענח אתרי פלאש, מחזקת את הערכה כי לא ירחק היום וייעשה שימוש נרחב בטכנולוגיה הזאת גם במנועי חיפוש. ברור שזה הדבר הבא, ותודה על ההפניה לפוסט של גלילי, החכמתני. כמה אופייני להברקות של גוגל.

דינקיס · 9/5/10

http://online.wsj.com/article/SB10001424052748703866704575224232417931818.html

contrast · 9/5/10

סליחה על הבורות, אך מה פרוש OCR?

drvvv · 9/5/10

סריקת טקסט מתוך תמונות.

מקארתור · 9/5/10

דינקיס , מה מצאת בקישור? מדובר על חנות ספרים מקוונת שגוגל לא אוספת בעצמה את החומר,
[יש לה פרוייקט נוסף שהיא עצמה אוספת את החומר אבל מדובר על סריקת ספרים פיזיים, התקוע משפטית, ולא עליו מדובר.]

Tomim · 21/5/10

לא כ"כ הצלחתי להבין מהמסקנה שאליה רצית להגיע,
אם התכוונת שגוגל לא מפענח טקסט בעברית במסמכי PDF מבוססי תמונה - אז זו מסקנה שגויה.
לדוגמה:
http://www.google.co.il/search?hl=i...ין+של+״עשה״&meta=&aq=f&aqi=&aql=&oq=&gs_rfai=

מקארתור · 21/5/10

נשמע מעוד מעניין!
לא הקפצתי מסקנות לפני שבדקתי העלאות בSCRIBD,
מה שהבאת אמנם זה תמונה אבל הOCR של קורא הPDF [אצלי זה FOXIT] מזהה טקסט
אני העלתי לSCRIBD תמונה שלא מזוהה כלל כטקסט ע"י הFOXIT, יתכן וזה ההבדל, וצע"ג

גוגל, PDF, OCR,

משתמש מקצוען

משתמש פעיל

משתמש פעיל

משתמש מקצוען

משתמש פעיל

משתמש מקצוען

משתמש פעיל

משתמש מקצוען

פסח כשר ופרימיום!

תגיות נפוצות