הצעה לתסריט: החלפת מילים

אנשי וויקיפדיה ידועים בחיבתם הרבה לעברית תקנית, ואכן מרבית התוכן שמתפרסם בוויקיפדיה עובר עריכה והגהה ברמה גבוה ומכובדת.

מבקרים קבועים בוויקיפדיה בוודאי הבחינו לא פעם באותם משתמשים הנכנסים לערכים קיימים ומבצעים בהם תיקונים ושיפורים. את מתקני הערכים של וויקיפדיה ניתן לחלק לשני סוגים עיקריים – גמדים, ותוכנות אוטומטיות.

מאחר והרישיון של וויקיפדיה חופשי, לדעתי יהיה מכובד וראוי להיעזר בידע הלשוני הנצבר בפרוייקט שלהם גם בעבור תוכנה חופשית במקומות אחרים.

העריכות האוטומטיות בוויקיפדיה מתבצעות בידי תוכנת בוט, כאשר הבוט המעניין ביותר הוא "בוט ההחלפות". התוכנה הנ"ל רצה מידי פעם על הערכים בוויקיפדיה העברית, ומבצעת בהם תיקונים לשגיאות נפוצות בהתאם לרשימת החלפות שנכתבה מבעוד מועד ומתעדכנת באופן תדיר בהצבעות המשתמשים לגבי בחירת הביטוי המקובל.

האם ניתן לנצל את המאגר הזה גם מחוץ לגבולות הגזרה של וויקיפדיה? בוודאי. תארו לעצמכם למשל תסריט אוטומטי שיעדכן מסמכים של OpenOffice ישירות דרך מעבד התמלילים. במקרים רבים תסריט כזה יהיה יעיל יותר מהרצה של בודק האיות על המסמך, שכן הוא לא מיועד רק לשגיאות איות אלא משתמש ברשימת הלפות מוגדרת מראש. אפשרות נוספת היא הרחבה לדפדפן שתרוץ במקביל לבודק האיות, ותוכל לבצע תיקונים בתוכן בצורה אוטומטית תוך כדי הכתיבה.

תארו לעצמכם שאפשר יהיה להריץ תסריט כזה משורת הפקודה, ולעדכן בבת אחת תרגומים לתוכנה אחת או אפילו לכל מערכת ההפעלה. דבר שכזה יתרום רבות לאיכות התרגומים של תוכנה חופשית לעברית, ויאפשר לנו גם לשמור על עקביות של שימוש באותה צורה של המילה (למשל "גירסא" מול "גירסה" מול "גרסה").

מה אנחנו צריכים לעשות?

ניתן לחלק את המשימה לשני חלקים עיקריים -שליפה ועדכון.

שליפת רשימת ההחלפות

הורדה של רשימת ההחלפות מוויקיפדיה, והמרה שלה לפורמט קריא על־ידי תוכנה שולחנית (המרה של המלל למסד נתונים או קובץ במבנה של XML, CSV וכו'). כדאי להוסיף לתוכנה יכולת התעלמות מביטויים מסויימים, שכן ברשימה המקורית ישנם מספר ביטויים שלא נחוצים מחוץ לוויקיפדיה. בנייה של רשימת המילים אינה פעולה שיש לבצעה מידי יום, אם כי כדאי שהמשתמש יעדכן את רשימת המילים שלו מידי מספר חודשים.

עדכון תוכן קיים

הרצה של התוכנה על קובץ אחד או יותר תבצע עליו את השינויים הדרושים. הרשימה המקורית היא במבנה של ביטויים רגולריים כך שיש צורך להשתמש במנוע שתומך בכך. חשוב לזכור כי בקובץ המקורי ישנם כ־500 ביטויים להחלפה, כך שייתכן ויהיה ראוי לבצע מספר שינויים במבנה הרשימה על־מנת לאפשר למנוע הביטויים הרגולריים לרוץ בצורה מהירה יותר.

והכי חשוב – התוכנה צריכה להיות פתוחה ולכבד את אנשי וויקיפדיה על יצירת המאגר השימושי, כתובה בשפה נוחה להרצה ושינויי קוד, ועדיף גם שיהיו לה מתחזקים פעילים כדי שיהיה למי לבוא בתלונות והצעות.

מי מתנדב לכתוב את התסריטים הללו?

10 תגובות בנושא “הצעה לתסריט: החלפת מילים”

  1. תכנה כזו אפשר לכתוב בעשר דקות, שהרי החלק המסובך הוא הביטויים הרגולריים, שכבר כתובים. השאלה היא רק באיזו שפה. בפעם האחרונה שבדקתי שפת הסקריפטים של OpenOffice הייתה די מזעזעת.

  2. …ובתגובה האחרונה שלי, וגם בתגובה הזאת, האות e במילה Pеrl – מהאלפבית הקירילי. כנראה השרת שלך חוסם את השם של שפת התכנות הזאת, כי הוא חושב שזו פרצת אבטחה.

    משעשע.

    אם בא לך – נסה פייתון, רובי, לואה, וגם "סלקט" של אס קיו אל.

    ואולי פשוט נעבור כולנו לכתוב רק באותיות עבריות.

  3. אני מסכים לחלוטין עם עניין התרגומים, הבעיה היא שמדובר בתיקונים כלל מערכתיים זה דורש המון עבודה, במקרים רבים כשהצעתי תיקונים נתקלתי בסירוב כיוון ששינוי כלל מערכתי במיזמים גדולים דורש המון עבודה (וסיזיפית לרב) לכן אם המונחים מובנים אז השינויים אינם מתבצעים
    אני כמובן בגישה של שינויים בכל מחיר אבל כל עוד אני לא יכול להציע את עצמי למשימה אני לא מתעקש אלא רק מציע
    רב המתרגמים בהם נתקלתי נענו לבקשותי ולהערותי בכבוד המתאים ואכן פעלו בהתאם אך היו מקרים שנתקלתי במתרגמים שעבודתם כל כך מלוכלכת עד שעדיף היה שלא היו נוגעים כלל ועבודה כזאת דורשת תרגום של תוכנות שלמות מחדש, וזה מוביל לנושא המשאבים מן הסתם

    תיקונים טכניים אמנם יעזרו אבל הם לא יחליפו מתרגמים מיומנים, אני עדיין מצודד במיזם גזר וחושב שהוא יכול היה למנוע הרבה מקרים כאלה, אני אישית מאמין שמתרגם צריך להיות מומחה פי כמה בעברית מאשר באנגלית, ההבנה הלוגית של הדברים והיכולת להביע אותם בשפת האם שלך היא משימה לא פשוטה בניגוד לדעה הרווחת, לכן אני מציע להרתם בכוחות משותפים ולעשות מאמצים לתקנן את התרגומים (לאו דווקא ברמת המונחים אלא ברמת העברית)
    חוקים כמו הכפלת וי"ו עיצורית אינם מוכרים אפילו לתומר שאין לי שום זילזול ביכולות הלשוניות שלו אך בכל זאת שגה (הכפיל וי"ו עיצורית ללא צורך)
    דבר נוסף שאני שם לב אליו הרבה הוא "במידה ו…" וזוהי צורה שאינה תקנית וחוק זה אף כתוב במסמכי תקינת העברית של ויקיפדיה (ויקיפדיה:לשון)

    אני אשמח לשמוע את תגובת המתרגמים באשר הם
    בברכה,
    ירון שהרבני

  4. כעיקרון יש במחשבי קובץ PHP המכיל פונקצייה שמאפשרת להחליף חלקי מחרוזת על־פי ביטויים רגולריים מסוג PCRE.

    התסריט מתחבר לשרת MySQL, שולף רשימת החלפות ומבצע אותן. בחרתי לגרום לו לעבוד מול מסד הנתונים כי זו הדרך הכי נוחה לנהל רשימת החלפות (וגם לשלוף אותה).

השאר תגובה