Skip To Content
JEWISH. INDEPENDENT. NONPROFIT.
Yiddish

מע קען איצט דורכזוכן דעם טעקסט פֿון 10,000 דיגיטאַליזירטע ביכער10,000 Digitized Yiddish Books Now Fully Searchable

די נײַע קאָמפּיוטער־פּראָגראַם געפֿינט יעדעס אָרט וווּ עס שטייט אַ געוויס וואָרט צווישן אַלע זײַטן פֿון דער זאַמלונג פֿונעם ייִדישן ביכער־צענטער.

נאָך לאַנגע יאָרן האָרעוואַניע מצד אַ קליינער מאַנשאַפֿט לינגוויסטן, קאָמפּיוטער־טעכניקער און וואָלונטירן, קען מען איצט אַ דאַנק אַ נײַער קאָמפּויטער־פּראָגראַם אויסזוכן אַ ספּעציפֿיש וואָרט אָדער אויסדרוק אין די מיליאָנען זײַטן פֿון דער אָנלײַן־קאָלעקציע בײַם ייִדישן ביכער־צענטער.

די פּראָגראַם, וואָס הייסט „יאָוקער‟, דערמעגלעכט, אַז מע זאָל מיט בלויז אַ פּאָר קוועטשן פֿונעם קאָמפּיוטער־מײַזל „בלעטערן‟ אין אַן אויגנבליק אַלע זײַטן פֿון די ביכער וואָס געפֿינען זיך אין דער דיגיטאַליזירטער זאַמלונג בײַם ייִדישן ביכער־צענטער און גלײַך דערוויסן אַלע ערטער, וווּ אַ געוויס וואָרט אָדער אויסדרוק שטייט געשריבן. אַ פּראָבע־נוסח פֿון דער פּראָגראַם, וואָס אַרבעט שוין גאַנץ גוט, קען מען אַליין נוצן דורכן קוועטשן דאָ. דער ייִדישער ביכער־צענטער גיט איבער, אַז מע וועט די קומענדיקע וואָך אָפֿיציעל לאַנצירן די פּראָגראַם.

ס׳איז ניט קיין גוזמא צו זאָגן, אַז די דאָזיקע פּראָגראַם וועט מאַכן אַ רעוואָלוציע אין אַלע געביטן פֿון דער ייִדיש־פֿאָרשונג.

אַ דאַנק „יאָוקער‟ וועט יעדער איינער וואָס לייענט ייִדיש און נוצט אַ קאָמפּיוטער קענען געפֿינען אין בלויז פֿינף סעקונדעס מער מאַטעריאַלן פֿאַרבונדן מיט אַ טעמע ווי דער דורכשניטלעכער פֿאָרשער האָט ביז איצט געקענט אַנטדעקן אין פֿינף יאָר. לינגוויסטן קענען, למשל, גלײַך אויסגעפֿינען ווען מע האָט אַ געוויס וואָרט צום ערשטן מאָל אָפּגעדרוקט בעת ליטעראַטור־קריטיקער און היסטאָריקער קענען אין איין רגע זיך דערוויסן, אין וועלכע טעקסטן עס זענען פֿאַראַן רעפֿערענצן צו אַ ספּעציפֿישן יחיד צי טעמע.

ד׳׳ר עדי פּאָרטנוי, דער אַקאַדעמישער בעל־יועץ בײַם „ייִוואָ‟ און דער מחבר פֿונעם בוך „אַ שלעכטער רבֿ און אַנדערע מאָדנע אָבער אמתע געשיכטעס פֿון דער ייִדישער פּרעסע‟, האָט איבערגעגעבן דעם פֿאָרווערטס, אַז די נײַע מעגלעכקייטן פֿאַר פֿאָרשער זענען „אויסערגעוויינטלעך. ס׳איז פּשוט שווער צו באַנעמען וואָס דאָס באַטײַט פֿאַרן (אַקאַדעמישן) פֿעלד. איך האָב טאַקע געמיינט, אַז איך וועל ניט דערלעבן צו זען אַזאַ טאָג. מיט 20 יאָר צוריק האָב איך גערעדט מיט אַהרן לאַנסקי (דער גרינדער און פּרעזידענט פֿונעם ייִדישן ביכער־צענטער) ווען דער צענטער האָט ערשט געהאַט אָנגעהויבן דיגיטאַליזירן זײַן זאַמלונג ביכער און לאַנסקי האָט דעמאָלט געזאָגט, אַז עס וועט קיינמאָל ניט געשען, ווײַל די טעכנאָלאָגיע עקסיסטירט פּשוט ניט און ס׳וואָלט געקאָסט מיליאָנען דאָלאַר זי צו שאַפֿן.‟

די נײַע מעגלעכקייט אויסצוזוכן ווערטער אין די ביכער קען מען איבערהויפּט באַדאַנקען איין מענטש, דעם לינגוויסט און קאָמפּיוטער־פּראָגראַמירער ד׳׳ר אַסף אוריאלי. אין 2009 האָט ד׳׳ר אוריאלי, אַ דרום־אַפֿריקאַנער געבוירענער ישׂראלי וואָס וווינט הײַנט אין פֿראַנקרײַך, אַנטדעקט די אינטערנעץ־זאַמלונג פֿונעם ייִדישן ביכער־צענטער און באַשלאָסן אַליין צו שאַפֿן אַ פּראָגראַם דורך וועלכער אַלע ווערטער אין אַ זאַמלונג דיגיטאַליזירטע ביכער זאָלן זײַן אין גאַנצן צום זוכן. לויט אַ פּראָפֿיל פֿון אים אינעם ביכער־צענטערס זשורנאַל, ”פּאַקן־טרעגער”, וואָס איז אַרויס אין 2012, האָט ער לכתּחילה געמיינט, אַז דער פּראָיעקט וועט אים דויערן אַ פּאָר חדשים. באַלד האָט ער אָבער דערזען, אַז עס וועט דויערן יאָרן לאַנג. מיט צוויי יאָר שפּעטער, ווען זײַן פּראָגראַם איז געווען 97% אַקוראַט, האָט ער זיך געוואָנדן צו אַהרן לאַנסקי און אים געזאָגט, אַז ער וויל שענקען „יאָוקער‟ דעם ייִדישן ביכער־צענטער אָבער מיט איין תּנאי: אַלע ביבליאָטעקן און אַרכיוון וואָס ווילן זי, זאָלן זיך אויך קענען באַנוצן מיט דער פּראָגראַם בחינם. נאָכן ווײַזן לאַנסקין אַ פֿריִערדיקן נוסח פֿון דער פּראָגראַם, האָט מען געמיינט אַז זי וועט זײַן אין גאַנצן פֿאַרטיק אין אַן ערך צוויי יאָר אַרום. הײַנט, ערשט מיט אַכט יאָר שפּעטער, איז זי סוף־כּל־סוף גרייט.

Assaf Urieli Jochre

ד׳׳ר אַסף אוריאלי ווײַזט ווי אַזוי עס פֿונקציאָנירט די נײַע פּראָגראַם “יאָוקער” Image by Yiddish Book Center

ווי אַזוי פֿונקציאָנירט זי? „יאָוקער‟ איז אַן OCR־פּראָגראַם, אַ מין קאָמפּיוטער־פּראָגראַם וואָס דערקענט דעם פֿאָרעם פֿון יעדן אות אויף אַ זײַט סקאַנירטן פּאַפּיר און פֿאַרגלײַכט די קאָמבינאַציעס פֿון אותיות מיט אַ ווערטערבוך, כּדי צו דערקענען דאָס וואָרט. כאָטש אַזעלכע פּראָגראַמען עקסיסטירן שוין לאַנג אויף ענגליש און אַנדערע שפּראַכן וואָס ווערן געשריבן מיט לאַטײַנישע אותיות, איז בײַם אָנהייב פֿונעם פּראָצעס פֿון שאַפֿן „יאָוקער‟ ניט אַפֿילו געווען קיין געהעריקע OCR-פּראָגראַם צו דערקענען די אותיות פֿונעם ייִדישן אלף־בית. (עס העלפֿט אויך ניט, וואָס די פֿאַרשידענע שריפֿטן וואָס מע האָט גענוצט בײַם דרוקן ביכער ייִדיש און העברעיִש זענען זייער פֿאַרשידנאַרטיק, און עטלעכע אותיות ווי „ם‟ און „ס‟ זעען אויס כּמעט אידענטיש אין אַלטע ביכער.)

פֿאַר ייִדיש גופֿא זענען אויך געווען אַ סך שוועריקייטן. צוליב דעם וואָס די ייִדישע אָרטאָגראַפֿיע אין ביכער איז ווײַט ניט אויסגעהאַלטן, האָט מען געדאַרפֿט צוביסלעך אויסלערנען די פּראָגראַם, אַז „אינגל‟ איז דאָס זעלביקע וואָרט ווי „יינגל‟ צי „ייִנגל‟ און אַז „מתּנה‟, „מתנה‟, „מאַטאָנע‟ און „מאטאנע‟ זענען אַלץ איינס. דערצו האָט מען די פּראָגראַם געדאַרפֿט אויסלערנען אַ ביסל גראַמאַטיק, זי זאָל פֿאַרשטיין אַז „פֿרומער ייִד‟, „פֿרומען ייִד‟ און „פֿרומע ייִדן‟ זענען אויך מער־ווייניקער אידענטיטשע זוך־טערמינען, וואָס דאַרפֿן זיך באַווײַזן צוזאַמען (שוין אָפּגערעדט פֿון „פֿרומע אידן‟, „פֿרומער איד‟ און אַפֿילו „פֿרומע אידען‟). סוף־כּל־סוף, האָט מען געדאַרפֿט אויסלערנען די פּראָגראַם איבערצוהיפּן אַלע טינטפֿלעקן און אילוסטראַציעס, זי זאָל ניט מיינען, אַז זיי זענען אויך אותיות.

ד׳׳ר אוריאלי איז אַן אָנהענגער פֿון דער שיטה „דאָס עפֿנטלעכע קאָדירן‟ (Open Source בלע׳׳ז), לויט וועלכער די דערפֿינדער פֿון נײַע קאָמפּיוטער־פּראָגראַמען דערלאָזן, אַז אַלע זאָלן האָבן צוטריט צו זייער קאָמפּיוטער־קאָד און אים פֿרײַ קענען פֿאַרשפּרייטן. אַהרן לאַנסקי וויל אויך אַז די פּראָגראַם זאָל ברייט אַדאָפּטירט ווערן — ער וויל שאַפֿן צוזאַמען מיט דער נאַציאָנאַלער ביבליאָטעק פֿון מדינת־ישׂראל, דעם העברעיִשן אוניווערסיטעט און אַנדערע אינסטיטוציעס וואָס האָבן גרויסע דיגיטאַליזירטע זאַמלונגען ייִדישע ביכער און צײַטונגען אַ בשותּפֿותדיקע אינטערנעץ־ביבליאָטעק פֿון כּמעט אַלע ייִדישע טעקסטן אויף דער וועלט, מע זאָל בײַ אַלע פֿון זיי קענען מיט איין קוועטש פֿונעם מײַזל אויסזוכן געוויסע ווערטער דורך מיט „יאָוקער‟.

„הלוואי וועט מען מיט דער צײַט אויך קענען אויסזוכן ווערטער אין דער ייִדישער פּרעסע‟, האָט איבערגעגעבן עדי פּאָרטנוי. „איך האָב אָפּגעגעגעבן ממש יאָרן פֿון מײַן לעבן קוקנדיק אויף מיקראָפֿילמען כּדי צו געפֿינען אַרטיקלען. האָפֿנטלעך וועט מען זיי באַלד קענען געפֿינען אין בלויז עטלעכע סעקונדעס. כאָטש דאָס פֿאָרשן איז מיר געווען אינטערעסאַנט, בענק איך אַוודאי ניט נאָכן זיצן יאָרן לאַנג פֿאַר די מיקראָפֿילמען.‟

„בכלל,‟ האָט ד׳׳ר פּאָרטנוי ווײַטער דערקלערט, „איז דאָס אַ ריזיקער אויפֿטו פֿאַר אַלע, וואָס פֿאַרנעמען זיך מיט דער ייִדישער ליטעראַטור, לינגוויסטיק און פֿאָלקלאָר. איך וואַרט מיט חשק צו זען, וואָס מע וועט אַנטדעקן אַ דאַנק דער פּראָגראַם און ווי ס׳וועט ווירקן אויף דער ייִדיש־פֿאָרשונג‟.

Dive In

    Republish This Story

    Please read before republishing

    We’re happy to make this story available to republish for free, unless it originated with JTA, Haaretz or another publication (as indicated on the article) and as long as you follow our guidelines. You must credit the Forward, retain our pixel and preserve our canonical link in Google search.  See our full guidelines for more information, and this guide for detail about canonical URLs.

    To republish, copy the HTML by clicking on the yellow button to the right; it includes our tracking pixel, all paragraph styles and hyperlinks, the author byline and credit to the Forward. It does not include images; to avoid copyright violations, you must add them manually, following our guidelines. Please email us at [email protected], subject line “republish,” with any questions or to let us know what stories you’re picking up.

    We don't support Internet Explorer

    Please use Chrome, Safari, Firefox, or Edge to view this site.