Yiddish Book Shelf by the Forward

מע קען איצט דורכזוכן דעם טעקסט פֿון 10,000 דיגיטאַליזירטע ביכער

10,000 Digitized Yiddish Books Now Fully Searchable

נאָך לאַנגע יאָרן האָרעוואַניע מצד אַ קליינער מאַנשאַפֿט לינגוויסטן, קאָמפּיוטער־טעכניקער און וואָלונטירן, קען מען איצט אַ דאַנק אַ נײַער קאָמפּויטער־פּראָגראַם אויסזוכן אַ ספּעציפֿיש וואָרט אָדער אויסדרוק אין די מיליאָנען זײַטן פֿון דער אָנלײַן־קאָלעקציע בײַם ייִדישן ביכער־צענטער.

די פּראָגראַם, וואָס הייסט „יאָוקער‟, דערמעגלעכט, אַז מע זאָל מיט בלויז אַ פּאָר קוועטשן פֿונעם קאָמפּיוטער־מײַזל „בלעטערן‟ אין אַן אויגנבליק אַלע זײַטן פֿון די ביכער וואָס געפֿינען זיך אין דער דיגיטאַליזירטער זאַמלונג בײַם ייִדישן ביכער־צענטער און גלײַך דערוויסן אַלע ערטער, וווּ אַ געוויס וואָרט אָדער אויסדרוק שטייט געשריבן. אַ פּראָבע־נוסח פֿון דער פּראָגראַם, וואָס אַרבעט שוין גאַנץ גוט, קען מען אַליין נוצן דורכן קוועטשן דאָ. דער ייִדישער ביכער־צענטער גיט איבער, אַז מע וועט די קומענדיקע וואָך אָפֿיציעל לאַנצירן די פּראָגראַם.

ס׳איז ניט קיין גוזמא צו זאָגן, אַז די דאָזיקע פּראָגראַם וועט מאַכן אַ רעוואָלוציע אין אַלע געביטן פֿון דער ייִדיש־פֿאָרשונג.

אַ דאַנק „יאָוקער‟ וועט יעדער איינער וואָס לייענט ייִדיש און נוצט אַ קאָמפּיוטער קענען געפֿינען אין בלויז פֿינף סעקונדעס מער מאַטעריאַלן פֿאַרבונדן מיט אַ טעמע ווי דער דורכשניטלעכער פֿאָרשער האָט ביז איצט געקענט אַנטדעקן אין פֿינף יאָר. לינגוויסטן קענען, למשל, גלײַך אויסגעפֿינען ווען מע האָט אַ געוויס וואָרט צום ערשטן מאָל אָפּגעדרוקט בעת ליטעראַטור־קריטיקער און היסטאָריקער קענען אין איין רגע זיך דערוויסן, אין וועלכע טעקסטן עס זענען פֿאַראַן רעפֿערענצן צו אַ ספּעציפֿישן יחיד צי טעמע.

ד׳׳ר עדי פּאָרטנוי, דער אַקאַדעמישער בעל־יועץ בײַם „ייִוואָ‟ און דער מחבר פֿונעם בוך „אַ שלעכטער רבֿ און אַנדערע מאָדנע אָבער אמתע געשיכטעס פֿון דער ייִדישער פּרעסע‟, האָט איבערגעגעבן דעם פֿאָרווערטס, אַז די נײַע מעגלעכקייטן פֿאַר פֿאָרשער זענען „אויסערגעוויינטלעך. ס׳איז פּשוט שווער צו באַנעמען וואָס דאָס באַטײַט פֿאַרן (אַקאַדעמישן) פֿעלד. איך האָב טאַקע געמיינט, אַז איך וועל ניט דערלעבן צו זען אַזאַ טאָג. מיט 20 יאָר צוריק האָב איך גערעדט מיט אַהרן לאַנסקי (דער גרינדער און פּרעזידענט פֿונעם ייִדישן ביכער־צענטער) ווען דער צענטער האָט ערשט געהאַט אָנגעהויבן דיגיטאַליזירן זײַן זאַמלונג ביכער און לאַנסקי האָט דעמאָלט געזאָגט, אַז עס וועט קיינמאָל ניט געשען, ווײַל די טעכנאָלאָגיע עקסיסטירט פּשוט ניט און ס׳וואָלט געקאָסט מיליאָנען דאָלאַר זי צו שאַפֿן.‟

די נײַע מעגלעכקייט אויסצוזוכן ווערטער אין די ביכער קען מען איבערהויפּט באַדאַנקען איין מענטש, דעם לינגוויסט און קאָמפּיוטער־פּראָגראַמירער ד׳׳ר אַסף אוריאלי. אין 2009 האָט ד׳׳ר אוריאלי, אַ דרום־אַפֿריקאַנער געבוירענער ישׂראלי וואָס וווינט הײַנט אין פֿראַנקרײַך, אַנטדעקט די אינטערנעץ־זאַמלונג פֿונעם ייִדישן ביכער־צענטער און באַשלאָסן אַליין צו שאַפֿן אַ פּראָגראַם דורך וועלכער אַלע ווערטער אין אַ זאַמלונג דיגיטאַליזירטע ביכער זאָלן זײַן אין גאַנצן צום זוכן. לויט אַ פּראָפֿיל פֿון אים אינעם ביכער־צענטערס זשורנאַל, ”פּאַקן־טרעגער”, וואָס איז אַרויס אין 2012, האָט ער לכתּחילה געמיינט, אַז דער פּראָיעקט וועט אים דויערן אַ פּאָר חדשים. באַלד האָט ער אָבער דערזען, אַז עס וועט דויערן יאָרן לאַנג. מיט צוויי יאָר שפּעטער, ווען זײַן פּראָגראַם איז געווען 97% אַקוראַט, האָט ער זיך געוואָנדן צו אַהרן לאַנסקי און אים געזאָגט, אַז ער וויל שענקען „יאָוקער‟ דעם ייִדישן ביכער־צענטער אָבער מיט איין תּנאי: אַלע ביבליאָטעקן און אַרכיוון וואָס ווילן זי, זאָלן זיך אויך קענען באַנוצן מיט דער פּראָגראַם בחינם. נאָכן ווײַזן לאַנסקין אַ פֿריִערדיקן נוסח פֿון דער פּראָגראַם, האָט מען געמיינט אַז זי וועט זײַן אין גאַנצן פֿאַרטיק אין אַן ערך צוויי יאָר אַרום. הײַנט, ערשט מיט אַכט יאָר שפּעטער, איז זי סוף־כּל־סוף גרייט.

ווי אַזוי פֿונקציאָנירט זי? „יאָוקער‟ איז אַן OCR־פּראָגראַם, אַ מין קאָמפּיוטער־פּראָגראַם וואָס דערקענט דעם פֿאָרעם פֿון יעדן אות אויף אַ זײַט סקאַנירטן פּאַפּיר און פֿאַרגלײַכט די קאָמבינאַציעס פֿון אותיות מיט אַ ווערטערבוך, כּדי צו דערקענען דאָס וואָרט. כאָטש אַזעלכע פּראָגראַמען עקסיסטירן שוין לאַנג אויף ענגליש און אַנדערע שפּראַכן וואָס ווערן געשריבן מיט לאַטײַנישע אותיות, איז בײַם אָנהייב פֿונעם פּראָצעס פֿון שאַפֿן „יאָוקער‟ ניט אַפֿילו געווען קיין געהעריקע OCR-פּראָגראַם צו דערקענען די אותיות פֿונעם ייִדישן אלף־בית. (עס העלפֿט אויך ניט, וואָס די פֿאַרשידענע שריפֿטן וואָס מע האָט גענוצט בײַם דרוקן ביכער ייִדיש און העברעיִש זענען זייער פֿאַרשידנאַרטיק, און עטלעכע אותיות ווי „ם‟ און „ס‟ זעען אויס כּמעט אידענטיש אין אַלטע ביכער.)

פֿאַר ייִדיש גופֿא זענען אויך געווען אַ סך שוועריקייטן. צוליב דעם וואָס די ייִדישע אָרטאָגראַפֿיע אין ביכער איז ווײַט ניט אויסגעהאַלטן, האָט מען געדאַרפֿט צוביסלעך אויסלערנען די פּראָגראַם, אַז „אינגל‟ איז דאָס זעלביקע וואָרט ווי „יינגל‟ צי „ייִנגל‟ און אַז „מתּנה‟, „מתנה‟, „מאַטאָנע‟ און „מאטאנע‟ זענען אַלץ איינס. דערצו האָט מען די פּראָגראַם געדאַרפֿט אויסלערנען אַ ביסל גראַמאַטיק, זי זאָל פֿאַרשטיין אַז „פֿרומער ייִד‟, „פֿרומען ייִד‟ און „פֿרומע ייִדן‟ זענען אויך מער־ווייניקער אידענטיטשע זוך־טערמינען, וואָס דאַרפֿן זיך באַווײַזן צוזאַמען (שוין אָפּגערעדט פֿון „פֿרומע אידן‟, „פֿרומער איד‟ און אַפֿילו „פֿרומע אידען‟). סוף־כּל־סוף, האָט מען געדאַרפֿט אויסלערנען די פּראָגראַם איבערצוהיפּן אַלע טינטפֿלעקן און אילוסטראַציעס, זי זאָל ניט מיינען, אַז זיי זענען אויך אותיות.

ד׳׳ר אוריאלי איז אַן אָנהענגער פֿון דער שיטה „דאָס עפֿנטלעכע קאָדירן‟ (Open Source בלע׳׳ז), לויט וועלכער די דערפֿינדער פֿון נײַע קאָמפּיוטער־פּראָגראַמען דערלאָזן, אַז אַלע זאָלן האָבן צוטריט צו זייער קאָמפּיוטער־קאָד און אים פֿרײַ קענען פֿאַרשפּרייטן. אַהרן לאַנסקי וויל אויך אַז די פּראָגראַם זאָל ברייט אַדאָפּטירט ווערן — ער וויל שאַפֿן צוזאַמען מיט דער נאַציאָנאַלער ביבליאָטעק פֿון מדינת־ישׂראל, דעם העברעיִשן אוניווערסיטעט און אַנדערע אינסטיטוציעס וואָס האָבן גרויסע דיגיטאַליזירטע זאַמלונגען ייִדישע ביכער און צײַטונגען אַ בשותּפֿותדיקע אינטערנעץ־ביבליאָטעק פֿון כּמעט אַלע ייִדישע טעקסטן אויף דער וועלט, מע זאָל בײַ אַלע פֿון זיי קענען מיט איין קוועטש פֿונעם מײַזל אויסזוכן געוויסע ווערטער דורך מיט „יאָוקער‟.

„הלוואי וועט מען מיט דער צײַט אויך קענען אויסזוכן ווערטער אין דער ייִדישער פּרעסע‟, האָט איבערגעגעבן עדי פּאָרטנוי. „איך האָב אָפּגעגעגעבן ממש יאָרן פֿון מײַן לעבן קוקנדיק אויף מיקראָפֿילמען כּדי צו געפֿינען אַרטיקלען. האָפֿנטלעך וועט מען זיי באַלד קענען געפֿינען אין בלויז עטלעכע סעקונדעס. כאָטש דאָס פֿאָרשן איז מיר געווען אינטערעסאַנט, בענק איך אַוודאי ניט נאָכן זיצן יאָרן לאַנג פֿאַר די מיקראָפֿילמען.‟

„בכלל,‟ האָט ד׳׳ר פּאָרטנוי ווײַטער דערקלערט, „איז דאָס אַ ריזיקער אויפֿטו פֿאַר אַלע, וואָס פֿאַרנעמען זיך מיט דער ייִדישער ליטעראַטור, לינגוויסטיק און פֿאָלקלאָר. איך וואַרט מיט חשק צו זען, וואָס מע וועט אַנטדעקן אַ דאַנק דער פּראָגראַם און ווי ס׳וועט ווירקן אויף דער ייִדיש־פֿאָרשונג‟.

מע קען איצט דורכזוכן דעם טעקסט פֿון 10,000 דיגיטאַליזירטע ביכער

Your Comments

The Forward welcomes reader comments in order to promote thoughtful discussion on issues of importance to the Jewish community. All readers can browse the comments, and all Forward subscribers can add to the conversation. In the interest of maintaining a civil forum, The Forward requires that all commenters be appropriately respectful toward our writers, other commenters and the subjects of the articles. Vigorous debate and reasoned critique are welcome; name-calling and personal invective are not and will be deleted. Egregious commenters or repeat offenders will be banned from commenting. While we generally do not seek to edit or actively moderate comments, our spam filter prevents most links and certain key words from being posted and the Forward reserves the right to remove comments for any reason.

Recommend this article

מע קען איצט דורכזוכן דעם טעקסט פֿון 10,000 דיגיטאַליזירטע ביכער

Thank you!

This article has been sent!

Close