גוגל, PDF, OCR,

מקארתור

משתמש מקצוען
D I G I T A L
עד כמה גוגל מתייחסת לPDF , לכאורה זה נראה קריא ומאונדקס לחלוטין, אבל לא בדיוק,
עד כמה גוגל קשורה ומפעילה כלי OCR, ישנם פרסומים שונים,
בדקתי קבצים השוכנים כבוד בבית של הפידיאפים SCRIBD דוט קום.
משום מה דמיינתי שזרועות התמנון של גוגל לא תחמיץ ביט\פונט אחד, לכן הלכתי על עברית, חפשתי טקסט המופיע בתוך אמצע קובץ עברי כשהקובץ הינו PDF טקסטואלי שאני העלתי, גוגל אכלה אותו ופלטה תוך רבע שעה תשובות מדוייקות, כשההעלתי אותו בPDF לא טקסטואלי דהיינו פורמט תמונה, גוגל לא מכירה,
הלכתי על אנגלית, לא היה לי עצבים להעלות, חפשתי מתוך קובץ אנגלי בפורמט תמונה, גוגל לא מזהה, עד כאן: גוגל אוכל PDF אולם תמונות לא שזה אומר OCR לא בשימוש, מסקנא מעשית אם תעלו PDF וודאו שיהיה טקסטואלי.
לומר שהתמנון ממאונטן וויו לא חובש משקפי OCR? עוד לא, בקישור הבא תוכלו להאכיל את הOCR של גוגל בפעולה רצחנית, רק באנגלית ומצריך רישום לשרותי מדינת גוגל:
http://googlecodesamples.com/docs/php/ocr.php

העלתי לשם קובץ עברי, תחנת גוגל אינה עונה, אנגלית הוא קרא תוך שניות ובדייקנות מטורפת,
זה מה שאומר שהאליגוריתם הOCR שלהם בשל ברמות על, למה על? ומאיפה השיגו אותו? כל העולם ואשתו כיילו אותו ידנית זיליוני פעמים:
http://www.talgalili.com/?p=1100
מה יהיה השלב הבא, ומהו? אפשר רק לנחש, אם כי זה לא בדיוק משמעותי עבורינו, מה כן? אם תרצו להמיר בOCR חינמי מעולה, הנה הכתובת,
לא התאפקתי ובדקתי גם קובץ אנטי OCR מהפרוייקט שלי כאן:
http://www.prog.co.il/showthread.php?t=47420
כמובן שהתג'ברש לה העסק, מילים שלמות אך סדר מעורר פלצות.
 

דינקיס

משתמש פעיל
D I G I T A L
אחלה פוסט הבאת.
ידוע ש PDF טקסטואלי גוגל קורא מעולה כבר הרבה זמן, ואפילו רצוי לתת תיאורים מתאימים לכותרות כדי שגוגל יאכל את הPDF יותר טוב לצורכי SEO.
בעניין OCR, לדעתי כמו שכתבת לגוגל ברור שיש את הטכנולוגיה המתאימה לזה, והצהרתה לפני כמה חודשים שהיא יודעת לפענח אתרי פלאש, מחזקת את הערכה כי לא ירחק היום וייעשה שימוש נרחב בטכנולוגיה הזאת גם במנועי חיפוש. ברור שזה הדבר הבא, ותודה על ההפניה לפוסט של גלילי, החכמתני. כמה אופייני להברקות של גוגל.
 

contrast

משתמש מקצוען
עיצוב גרפי
איור וציור מקצועי
סליחה על הבורות, אך מה פרוש OCR?
 

מקארתור

משתמש מקצוען
D I G I T A L
דינקיס , מה מצאת בקישור? מדובר על חנות ספרים מקוונת שגוגל לא אוספת בעצמה את החומר,
[יש לה פרוייקט נוסף שהיא עצמה אוספת את החומר אבל מדובר על סריקת ספרים פיזיים, התקוע משפטית, ולא עליו מדובר.]
 

מקארתור

משתמש מקצוען
D I G I T A L
נשמע מעוד מעניין!
לא הקפצתי מסקנות לפני שבדקתי העלאות בSCRIBD,
מה שהבאת אמנם זה תמונה אבל הOCR של קורא הPDF [אצלי זה FOXIT] מזהה טקסט
אני העלתי לSCRIBD תמונה שלא מזוהה כלל כטקסט ע"י הFOXIT, יתכן וזה ההבדל, וצע"ג
 

אולי מעניין אותך גם...

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק קכב

א שִׁיר הַמַּעֲלוֹת לְדָוִד שָׂמַחְתִּי בְּאֹמְרִים לִי בֵּית יְהוָה נֵלֵךְ:ב עֹמְדוֹת הָיוּ רַגְלֵינוּ בִּשְׁעָרַיִךְ יְרוּשָׁלִָם:ג יְרוּשָׁלִַם הַבְּנוּיָה כְּעִיר שֶׁחֻבְּרָה לָּהּ יַחְדָּו:ד שֶׁשָּׁם עָלוּ שְׁבָטִים שִׁבְטֵי יָהּ עֵדוּת לְיִשְׂרָאֵל לְהֹדוֹת לְשֵׁם יְהוָה:ה כִּי שָׁמָּה יָשְׁבוּ כִסְאוֹת לְמִשְׁפָּט כִּסְאוֹת לְבֵית דָּוִיד:ו שַׁאֲלוּ שְׁלוֹם יְרוּשָׁלִָם יִשְׁלָיוּ אֹהֲבָיִךְ:ז יְהִי שָׁלוֹם בְּחֵילֵךְ שַׁלְוָה בְּאַרְמְנוֹתָיִךְ:ח לְמַעַן אַחַי וְרֵעָי אֲדַבְּרָה נָּא שָׁלוֹם בָּךְ:ט לְמַעַן בֵּית יְהוָה אֱלֹהֵינוּ אֲבַקְשָׁה טוֹב לָךְ:
נקרא  2  פעמים

לוח מודעות

למעלה