ארכיון תגיות: בוט

הצעה לתסריט: החלפת מילים

אנשי וויקיפדיה ידועים בחיבתם הרבה לעברית תקנית, ואכן מרבית התוכן שמתפרסם בוויקיפדיה עובר עריכה והגהה ברמה גבוה ומכובדת.

מבקרים קבועים בוויקיפדיה בוודאי הבחינו לא פעם באותם משתמשים הנכנסים לערכים קיימים ומבצעים בהם תיקונים ושיפורים. את מתקני הערכים של וויקיפדיה ניתן לחלק לשני סוגים עיקריים – גמדים, ותוכנות אוטומטיות.

מאחר והרישיון של וויקיפדיה חופשי, לדעתי יהיה מכובד וראוי להיעזר בידע הלשוני הנצבר בפרוייקט שלהם גם בעבור תוכנה חופשית במקומות אחרים.

העריכות האוטומטיות בוויקיפדיה מתבצעות בידי תוכנת בוט, כאשר הבוט המעניין ביותר הוא "בוט ההחלפות". התוכנה הנ"ל רצה מידי פעם על הערכים בוויקיפדיה העברית, ומבצעת בהם תיקונים לשגיאות נפוצות בהתאם לרשימת החלפות שנכתבה מבעוד מועד ומתעדכנת באופן תדיר בהצבעות המשתמשים לגבי בחירת הביטוי המקובל.

האם ניתן לנצל את המאגר הזה גם מחוץ לגבולות הגזרה של וויקיפדיה? בוודאי. תארו לעצמכם למשל תסריט אוטומטי שיעדכן מסמכים של OpenOffice ישירות דרך מעבד התמלילים. במקרים רבים תסריט כזה יהיה יעיל יותר מהרצה של בודק האיות על המסמך, שכן הוא לא מיועד רק לשגיאות איות אלא משתמש ברשימת הלפות מוגדרת מראש. אפשרות נוספת היא הרחבה לדפדפן שתרוץ במקביל לבודק האיות, ותוכל לבצע תיקונים בתוכן בצורה אוטומטית תוך כדי הכתיבה.

תארו לעצמכם שאפשר יהיה להריץ תסריט כזה משורת הפקודה, ולעדכן בבת אחת תרגומים לתוכנה אחת או אפילו לכל מערכת ההפעלה. דבר שכזה יתרום רבות לאיכות התרגומים של תוכנה חופשית לעברית, ויאפשר לנו גם לשמור על עקביות של שימוש באותה צורה של המילה (למשל "גירסא" מול "גירסה" מול "גרסה").

מה אנחנו צריכים לעשות?

ניתן לחלק את המשימה לשני חלקים עיקריים -שליפה ועדכון.

שליפת רשימת ההחלפות

הורדה של רשימת ההחלפות מוויקיפדיה, והמרה שלה לפורמט קריא על־ידי תוכנה שולחנית (המרה של המלל למסד נתונים או קובץ במבנה של XML, CSV וכו'). כדאי להוסיף לתוכנה יכולת התעלמות מביטויים מסויימים, שכן ברשימה המקורית ישנם מספר ביטויים שלא נחוצים מחוץ לוויקיפדיה. בנייה של רשימת המילים אינה פעולה שיש לבצעה מידי יום, אם כי כדאי שהמשתמש יעדכן את רשימת המילים שלו מידי מספר חודשים.

עדכון תוכן קיים

הרצה של התוכנה על קובץ אחד או יותר תבצע עליו את השינויים הדרושים. הרשימה המקורית היא במבנה של ביטויים רגולריים כך שיש צורך להשתמש במנוע שתומך בכך. חשוב לזכור כי בקובץ המקורי ישנם כ־500 ביטויים להחלפה, כך שייתכן ויהיה ראוי לבצע מספר שינויים במבנה הרשימה על־מנת לאפשר למנוע הביטויים הרגולריים לרוץ בצורה מהירה יותר.

והכי חשוב – התוכנה צריכה להיות פתוחה ולכבד את אנשי וויקיפדיה על יצירת המאגר השימושי, כתובה בשפה נוחה להרצה ושינויי קוד, ועדיף גם שיהיו לה מתחזקים פעילים כדי שיהיה למי לבוא בתלונות והצעות.

מי מתנדב לכתוב את התסריטים הללו?