ח"כ ליה שמטוב רוצה לשלוט על האינטרנט שלכם

בזמן שמשטרים רבים בעולם זוכים להתעוררות תודות לאינטרנט והאופי שלה שמעודד שיחה על בסיס תחומי עניין משותפים, ומשטרים אפלים (מישהו הזכיר את אירן, צפון קוריאה וסין) מודאגים מאד מיציבות השלטון שלהם בעולם בו האינטרנט לוקח חלק ניכר מחיינו, במדינה דמוקרטית קטנה במזרח התיכון יש מי שרוצים לשלוט על התכנים של הרשת, כי מי ששולט בתוכן הוא גם שולט באזרחים.

חברת הכנסת ליה שמטוב היקרה, הכירי נא – המסר הזה מגיע אליך בטכנולוגית תקשורת מחשבים ברשת הנקראת אינטרנט. אינטרנט הוא כלי שמשרת את הדמוקרטיה יותר מכל כלי תקשורת אחר, ונותן לאזרחים להביע את דעתם בכל נושא.

כאשר את אומרת שאת מודאגת מהתכנים שמופצים ברשת, בטוענה שמדובר בתכנים מיניים ואלימות, את אולי זוכה לקצת יחס מהתקשורת שיכניס אותך לתודעה ואולי בעתיד גם ישדרג אותך במפלגה אליה את משויכת, אבל במקביל את מעוררת את זעמה של אומת האינטרנט עליך, ולמקרה שלא שמת לב לזה עד עכשיו, רשת האינטרנט אינה כפופה ישירות לחוקים ולהגבלות של מדינה מסויימת, ובוודאי שלא המדינה הקטנה במזרח התיכון שאת יושבת בפרלמנט שלה.

ישנן מדינות בהן קיים סינון תכנים ברשת האינטרנט. סין היא דוגמה טובה לכך. השלטון בסין הוא זה ששולט בתכנים שאזרחי הרפובליקה רשאים לגשת אליהם, ואם בטעות סטודנט סיני תמים ירצה להרחיב אופקים וללמוד על טיבט הוא עלול לגלות שבאורח מסתורי דפים רבים אינם נגישים עבורו, ואם חלילה מישהו יפרסם מסר שמשמיץ את השלטון, הוא עשוי מהר מאד להיעלם מבלי להשאיר אחריו עקבות.

מה זה בכלל "חסימת תכנים מיניים ואלימים"? אני בטוח שחבריך מהמפלגות החרדיות שתומכים בהצעת החוק שהעלת יטענו שתכנים מיניים הם גם תמונות של נשים שמסתובבות בחולצות קצרות, וידרשו לחסום כל אתר מוזיקה ברשת מאחר שאיפשהו בסביבות 50% מהשירים מבוצעים בידי נשים, והשקפת העולם הצרה שלהם דורשת מהם להימנע מצריכת תוכן שנוצר בידי נשים.

נחזור לדוגמה של סין שהעלתי קודם. אחת מתופעות הלוואי של אינטרנט מסונן היא שמהירות הגישה לאתרים שנמצאים מחוץ לחומת האש הגדולה של סין נטענים בצורה איטית יחסית, ולעיתים קרובות עולים בצורה פגומה עקב פיסות מידע שהולכות לאיבוד במהלך הסינון. ברשת הישראלית קווי הגישה לרשת העולמית אמנם לא רחבים מספיק לדעת רבים מהגולשים, אבל לפחות אין לנו התערבות ממשלתית בסינון הגישה לרשת שיאט אותנו עוד יותר וישבש תכנים שמגיעים אלינו.

שלילת הגישה של הציבור הרחב לתכנים מסויימים לעולם לא תהיה הרמטית ברשת האינטרנט, לפחות כל עוד ישנה קבוצת אנשים שיש להם עניין מסויים בעקיפתה. אנשים לא אוהבים שמחטטים בעניינים הפרטיים שלהם, ואם הם רוצים להגיע למקום כלשהו הם יגיעו אליו גם אם יחסמו אותם באמצעות נתיבי תקשורת חלופיים ומוצפנים, אותם יהיה קשה יותר למשטר לזהות ולחסום, ובכך למעשה כל ההגנה של הממשל על הציבור מעצמו הופכת למיותרת כי הפתרון למעקף יפורסם ברשת. בסין אולי מרבית הציבור לא יכול לקרוא על כיכר טייאנמן או על עצמאות טיבט, אבל אם מישהו יתעקש הוא ימצא איך להגיע בכל זאת לתכנים המבוקשים באמצעות שימוש בשרתי פרוקסי הרחק מזרועות השלטון או מערכות מבוזרות בסגנון TOR.

אדם לא נחשף ככה סתם ברשת לתכנים מיניים או אלימים, במיוחד אם הוא לא ביקש להגיע אליהם במפורש. בכל מקרה פדופילים אפשר למצוא גם בפייסבוק, ותמונות של בחורות ערומים אפשר לקבל גם בדואר אלקטרוני מחברים. מה שחשוב זה לחנך את הציבור לגלישה בטוחה יותר ולצריכת תוכן נבונה, ולא להתיימר לחסום אתרים ברשת לפי נושאים, במיוחד כאשר בכל יום צצים עשרות אתרים חדשים ואתרים אחרים נסגרים, וניהול מעקב אחר כל האתרים ברשת זו עבודה במשרה מלאה להרבה יותר מעשרה אנשים.

שימוש בקו טלפון נוסף באמצעות CSIPSIMPLE ו־sipme

SIP הוא פרוטוקול טלפוניה דרך הרשת, ובאמצעותו ניתן להפעיל קווי טלפון דיגיטליים במגוון רחב של מכשירים ללא צורך בתשתית פיזית קבועה (למשל בזק, הוט). קיימים מכשירים פיזיים שכוללים מימוש של פרוטוקול זה ופרוטוקולים נלווים, וניתן גם להגדיר קו SIP על גבי מחשבים ביתיים, טלפונים חכמים ועד קונסולות משחק והתקנים דומים.

csipsimple היא תוכנה חופשית למכשירי אנדרואיד שמאפשרת להוסיף קווי SIP למכשיר. גרסאות חדשות של אנדרואיד כוללות תמיכה מובנית ב־SIP, אבל משתמשים רבים מעדיפים להשתמש בכל זאת ביישום נפרד לניהול הקו הוירטואלי שלהם, זאת כדי לשלוט בו בצורה מיטבית וגם לכבות אותו כאשר אין בו צורך. מבין מספר תוכנות למכשירי אנדרואיד csipsimple היא התוכנה המשוכללת ביותר לטעמי אבל גם נוחה מספיק למשתמש מן השורה שיעדיף תוכנה עובדת ללא התעסקות מיותרת. (הורדה מ־Google Play)

sipme.me היא אחת מבין החברות היחידות נכון להיום שנותנות קו טלפון מבוסס SIP שמקושר לקו טלפון ישראלי. החברה מצויה בשלב ניסוי עם רשיון זמני של משרד התקשורת, אבל ניתן להשתמש בשירותים שלהם כבר היום. מבחינת תעריפי השירות, שיחה יוצאת עולה 10 אגורות לדקה כולל מע"מ, ושליחת מסרון תעלה 14 אגורות להודעה. מבחינת שיחות לחו"ל ישנן מדינות אליהן המחיר יעלה שקלים בודדים לדקה, ומדינות אחרות בהן המחיר יהיה דומה מאד לזה בארץ (להלן קישור לתעריפי השירות).

ברשומה זו אנסה להסביר בצורה פשוטה כיצד להגדיר את קו טלפון לשיחות על מכשיר ה־Android שלכם באמצעות csipsimple ו־sipme. בסוף הרשומה ישנם מספר טיפים שיאפשרו לנצל טוב יותר את השירותים. Continue reading

גופנים חופשיים/חינמיים בעברית

עם ההוספה של תכונת ה־‎@font-face לדפדפנים, המאפשרת לכל מנהל אתרים ולכל מעצב לשלב גופנים כרצונו באתר, חלה התעניינות מחודשת בתחום הגופנים העבריים, ולראשונה ניתן לעצב אתרים בצורה טובה יותר מבעבר כאשר בעת עיצוב האתר לא מתעסקים רק בצבעים ובמיקום האלמנטים השונים בדף, אלא ניתן ממש לקבוע את הגופנים בהם יעשה שימוש הדפדפן. ברשומה זו אנסה לסקור את רשימת הגופנים החופשיים הקיימים כיום ברשת.

לפני שמתחילים, ברצוני לתת כמה טיפים לשימוש בגופנים ברשת. אני אמנם לא מומחה בטיפוגרפיה ואפילו לא מגדיר את עצמי כמעצב אתרים, אבל יצא לי לשחק די הרבה עם גופנים חופשיים בתקופה האחרונה.

  1. כשם שלא מקובל להשתמש בגופנים מעוצבים מידי במסמכים מודפסים, כך גם רצוי להימנע ככל האפשר מגופנים מסוגננים מידי. כשם ששאתם מגישים מסמך מודפס, בגופן בסגנון Arial או Times New Roman ולא גופן כתב יד בסגנון Guttman Yad או Comic Sans, כך רצוי להימנע ככל האפשר מגופנים שיקשו על הגולש בקריאת התוכן באתר שהוא בסופו של דבר החלק החשוב ביותר באתר.
  2. בהמשך לסעיף הקודם, רצוי להימנע מגופנים מעוצבים מידי בתוכן עצמו ולהשאיר אותם לכותרות. בצורה כזו לא רק שאתם מכבדים את העדפות המשתמש בדרך טובה יותר ומאפשרים לו לקרוא את התוכן באתר בגופנים שהוא הגדיר בדפדפן לתצוגת התוכן, אתם גם תאפשרו לדפדפן להציג את הדף באופן מהיר יותר ותחסכו לדפדפן קצת פעולות הכנה.
  3. גופני אותיות – להתרחק, להתרחק, להתרחק. אם נתקלתם פעם בטקסט עברי שכולל את התו J בסוף משפט, אני מניח שאתם מבינים את הבעיה. מדובר בתוכנה שטענה גופן אותיות (במקרה הזה Windings והציגה ציור מסויים שיושב במיקום של האות J. במקרה הזה מדובר בסימן "☺" שיושב במיקום סטנדרטי אחר, ועדיף להשתמש ביכולות של יוניקוד במקום להשתמש בגופנים שאולי יוצגו בצורה מוזרה אצל משתמשים שאין ברשותם את הגופן האמור (מידע נוסף).
  4. שימוש בגופנים מאט את זמן טעינת הדף, וגם גורם להשהיה בהצגת הטקסט עם טעינת הגופן. כדאי לדאוג לגופנים חלופיים דומים שיהיו מותקנים על מחשב הגולש, שקובץ הגופן יהיה קטן ככל האפשר, ושהשרת ידע לשלוח כותרי HTTP מתאימים כדי שהגופן ישמר במטמון המשתמש כדי לא שטעינת הדף תהיה מהירה ככל האפשר (מידע נוסף).

  • את הרשימה נפתח בגופנים החופשיים של מיזם קולמוס. מיזם קולמוס מטרתו הייתה להביא גופנים עבריים איכותיים וחופשיים לסביבת Linux שלא יחייבו את המשתמשים לייבא גופנים מ־Windows או להסתפק בגופנים בינוניים שהיו קיימים באותה תקופה. כיום הגופנים של קולמוס מותקנים אצל מרבית משתמשי לינוקס ומהווים את עיקר הגופנים העבריים שקיימים בסביבה זו. הגופנים מופצים תחת רשיון GPL2, וזמינים במספר חבילות; גופנים רגילים, גופנים מקושטים, וגופנים תנ"כיים שכוללים גם טעמי מקרא.
  • DejaVu הוא מיזם ליצירת משפחת גופנים חופשית במגוון רחב של שפות, ומבוסס על משפחת גופנים בשם Bitstream Vera ששוחררה עבור Gnome ברשיון חופשי בעבר ועברה שיפורים רבים במהלך הפיתוח (הגופן המקורי כלל למעשה רק תווים לטיניים). רשיון הגופנים הוא נחלת הכלל עם מספר השגות.
  • Core Fonts הוא מיזם שהתחיל את דרכו בהכרזה של חברת מיקרוסופט בשלהי שנות התשעים של המאה הקודמת להפיץ גופנים שהיו זמינים באותה תקופה עבור Windows בלבד, כדי להפוך אותם לגופנים סטנדרטיים אצל כולם. מאז מיקרוסופט נסוגה בה מהכרזתה זו והפסיקה להפיץ את הגופנים בעצמה, אלא שתנאי השימוש בגופנים איפשרו את המשך הפצתם.
  • SBL Hebrew הוא גופן בעל מראה תנ"כי לשימוש לא מסחרי.
  • Ezra SIL הוא גופן נוסף בעל מראה תנ"כי, שנוצר על־ידי מכון SIL שמטרתו ללמוד, לפתח ולתעד שפות. הגופן זמין ברשיון OFL.
  • Droid היא משפחת גופנים שפותחה במקור עבור מערכת ההפעלה הסלולרית Android, והגופנים זמינים תחת רשיון Apache. הגופנים מיועדים לשימוש במכשירים ניידים בעלי מסכים מזעריים, ולכן מתיימרים להיות יעילים במיוחד בגודל אות קטן. הגופנים נמצאים במאגר הקוד של אנדרואיד (קישור ישיר לתיקייה במאגר מראה של Github).
  • GNU FreeFont הינו מיזם יצירת הגופנים החופשיים של GNU. הגופנים זמינים ברשיון GPL3 וכוללים שלושה סוגים; אחד Serif, אחד Sans Serif ושלישי Monotype. אינני יכול להמליץ על גופן ה־Serif שלהם מאחר שהתווים העבריים שלו אינם נעימים במיוחד לקריאה על גבי מסך המחשב, ולצערנו בסביבות לינוקס רבות הוא מוגדר כגופן ברירת המחדל. (תצוגה מקדימה של תחום העברית בגופנים)
  • אלעד מרדכי פיתח מספר גופנים ומפיץ אותם ב־Open Font Library ברשיונות OFL (SIL Open Font License) או GNU General Public License (תלוי בגופן הנבחר). האתר Open Font Library עצמו הוא מאגר של גופנים חופשיים, אבל אני לא יכול להמליץ להיעזר בו בשלב זה בהיעדר אפשרות לבחור גופנים לפי שפה נתמכת.
  • אות פתיחה הוא מיזם ליצירת גופן רשת חדש חופשי לשימוש, ובשנת 2011 זכה לחסות מטעם איגוד האינטרנט הישראלי. בשלב זה אין שום מידע באתר לגבי זמינות הגופן בגרסה סופית או לפחות בגרסה נסיונית, אבל לאור רשימת המעורבים במיזם ונותני החסות שלהם הם מוזכרים ברשימה למרות שלכאורה לא ניתן להשיג שם גופנים.
  • הגופניה הוא האתר של אדם שמציין שהוא טיפוגרף כושל, ומפיץ מספר גופנים תחת רשיון Creative commons 3.0. הגופנים שלו אינם רעים כפי שהוא אולי חושב, ונראים די נקיים, וזמינים גם ב־Open Font Library.
  • מאיר סדן הוא מעצב גופנים ותיק ומוכר, שבמהלך השנים יצר די הרבה גופנים ואלו זמינים להורדה באתר שלו. מאיר מציין כי הגופנים חופשיים לשימוש לא מסחרי ומבקש באתר לתת לו קרדיט על הגופנים ואפשר גם קישור לאתר שלו.
  • יעקב מנדלסון יצר מספר גופנים לפני שנים רבות, ואלו זמינים להורדה באתר שלו. תנאי השימוש בהם מתירים בהם כל שימוש פרסומי, אבל אוסרים על שינוי הגופנים או על הפצתם.
  • נוה שגב יצר בתחילת העשור הקודם מספר גופנים חופשיים ומפיץ אותם באתר שלו. תנאי השימוש שמופצים עם הגופנים מתירים לעשות בהם כל שימוש כל עוד לא משנים את הגופן ופרטיו.

עד כאן רשימת הגופנים החופשיים שמצאתי וזמינים כיום ברשת. קיימים אנשים נוספים שעיצבו בעבר גופנים עבריים לשימוש חופשי, בניהם בן נתן,ברק פלורשהיים, דניאל לוי ואולי מספר אנשים נוספים, אלא שעבר זמן רב מאז שאלו עיצבו את הגופנים הללו, והאתרים בהם אלו פרסמו את הגופנים אינם זמינים כיום ברשת או קשים לאיתור, ולכן לא אוכל לקשר אליהם. למרות זאת, מי שמתעקש יוכל למצוא את הגופנים של אלו באתרי צד שלישי שמחזיקים עותקים של גופנים אלו כנראה ללא אישור או ידיעת המפתחים המקוריים.

אני מקווה שרשומה זו פתחה במעט את התיאבון של מספר משתמשים ותהווה השראה לאנשים נוספים להצטרף אל מעצבי הגופנים העבריים לשימוש חופשי לרווחת כולנו. למרות המגוון המצומצם של תוכנות וכלים לעיצוב גופנים קיימות תוכנות חופשיות למטרה זו כגון Font Forge, וכל אדם שיתרום גופן אחד או יותר יזכה לתהילת עולם וגם יעזור למשתמשים רבים לעצב את התוכן שלהם בגופנים המועדפים עליהם.

עסקים בישראל צומחים ברשת, וכיצד חברות מסחריות מנסות לפגוע בעסקים קטנים בחסות משרד התמ"ת

אתמול התקיים הכנס השנתי של איגוד האינטרנט, ובמסגרת פאנל קבוצות העבודה שהתקיים בו חשבנו על דרכים לקדם את נושאי הקוד הפתוח, ולקדם את האינטרנט הישראלי באופן כללי, ומסתבר שבאותו הזמן ממש משרד התמ"ת ולוביסטים מטעם חברות למטרות רווח חושבים אחרת, ומתכננים כיצד להשיג לקוחות קטנים בחסות המדינה.

עסקים בישראל צומחים ברשת הוא מיזם של מספר חברות מסחריות בשיתוף עם משרת התמ"ת שנרתם למשימה ונראה שהוא משמש כחותמת גומי כדי שהמיזם כולו יראה כאילו הוא בחסות המדינה והלקוחות העתידיים כדאי להם שהם יבחרו בפתרון זה ולא בכל הצעה אחרת.

במסגרת המיזם מציעים לאותם עסקים קטנים אירוח אתר למשך שנה שלמה, ולאחריה המחירים יהיו כדלקמן: 75₪ לשם המתחם לשנה (מחירים סטנדרטיים לשמות מתחם בישראל), ו־65₪ לחודש. מה שהם לא מספרים לכם זה שמדובר במערכת קניינית של חברה בשם Webydo שמציעה במחיר זה מערכת מוגבלת שלא תאפשר לאותו העסק לגדול ולהתפתח לפי הצורך, ותדרוש ממנו לעבור למערכת אחרת אם הוא ירצה לגדול מעבר לגבולות המערכת.

המערכת של Webydo היא מערכת קניינית מאורחת, כלומר המיזם בחסות המדינה מטרתו העיקרית היא כנראה להוסיף לקוחות חדשים לחברות השותפות בו ושותפיהם, ולאחר מכן לגזור קופון עליהם ולגבות מחיר חודשי קבוע על אירוח האתר מלקוחות שברוב המקרים לא צריכים הרבה, ואולי גם לא יטרחו לעדכן אותו.

אותה צורת פעולה אופיינית גם לחברות בסגנון "דפי זהב" וחברות בניית אתרים נוספות, שפונות לאלפי לקוחות פוטנציאלים ומציעים להם להקים אתרים רק כי "חייבים להיות ברשת". במרבית המקרים אותם לקוחות כלל לא מודעים לחלופות שקיימות עבורם, מוגבלים ליכולות של המערכת ואינם יכולים ליצא את התכנים שלהם בקלות למערכות חלפויות עקב מגבלות טכניות ומגבלות ידע.

מערכת WordPress, למשל, שמפעילה בין היתר גם את האתר הזה, היא תוכנה חופשית, מה שהשימוש בה אינו עולה כסף לעסק, והקוד שלה פתוח, מה שאומר שלמעשה כל אדם עם ידע מתאים יכול להצטרף לאלפי המפתחים שמתעסקים בה.

אם נצא בהערכה גסה שבכל אחת מאותן מערכות קנייניות שמפותחות בחברות כגון Webydo, מפותחות על־ידי כמה עשרות אנשי פיתוח, עדיין יש לתוכנות החופשיות יתרון עליהן – עשרות אלפי אנשים בחנו את קוד התוכנה ומציעים הצעות כיצד ניתן לשפר אותו כך שיתאים טוב יותר לצרכיהם, ואלפי אנשים התעסקו פיזית בקוד התוכנה. מהבחינה הזו, לכמות האנשים שמעורבים בפיתוח יש יתרון עצום על תוכנות שמפותחות כתוכנות קנינייות נטו, כמו למשל המערכת של Webydo שאפילו לא הצלחתי לגרום לממשק הניהול שלה לעלות אצלי לאחר שהיא שעה שלמה מציגה מסך טעינה. האם מישהו יסכים שתקלה כזו תתרחש בתוכנה חופשית? ככל הנראה מישהו כבר היה מזמן מדווח על זה בתור באג וגם פועל לחקור לעומק את התופעה ולהציע תיקון עבורה.

ממשק הניהול של Webydo. לא עולה.

ממשק הניהול של Webydo. איטי ומסורבל.

דבר נוסף שכדאי לחשוב עליו לפני שממהרים להירשם לאותו מיזם, זה שהמערכת שהם מציעים לכם היא מערכת סגורה שיושבת על השרתים של חברה מסויימת שהם האחראיים הבלעדיים שדרוג המערכת וביצוע שינויים בה. הם למשל מאפשרים למשתמשים להתקין תבניות וגם לבחור את צבעי האתר ולהעלות את לוגו האתר, אבל האם הם יסכימו לתת שירותים נוספים כמו למשל לאפשר ללקוח להשתמש בעיצוב שאינו זמין באתר או להתקין על האתר שלו יכולות שאינן מוצעות במוצר? כלל לא בטוח. Continue reading

רשימת חשבונות האשראי וכיצד אנחנו יכולים לעזור לחברים

בימים האחרונים הופצו רשימות משתמשים ממספר אתרים שלעיתים כוללות גם פרטים אישיים כמו שם וכתובת ולעיתים גם פרטים פיננסיים על המשתמשים. בעוד רבים נהרו לכל מיני אתרים שמציגים רשימות מקוצרות כדי לתת למשתמשים מושג אם פרטיהם מתפרסמים ברשימות, רבים אחרים כלל אינם מודעים לסכנה שבדבר או שאינם יודעים כיצד לבצע את הבדיקות הללו בעצמם. למה שלא נעזור לחברים ונבדוק עבורם אם הם נמצאים ברשימות?

כדי לבצע את הפעולות שמצוינות ברשימה זו יש להצטייד מראש ברשימות שהתפרסמו ורצוי גם שתהיה לכם גישה למכונת לינוקס, אבל גם אם אינכם מעוניינים לבצע זאת, המידע עשוי להיות שימושי עבורכם במשימות אחרות. שימו לב: ההחזקה בקבצים הללו עשויה להתפרש כהחזקה של מאגר כלא כחוק ואינני מתכוון לסייע לכם להשיג את הקבצים עצמם.

ראשית, הקבצים שמתפרסמים ברשת כוללים בחלקם מאגרי נתונים בקובץ mdb של Microsoft Access. אני לא מבין למה אותם בעלי אתרים משתמשים במאגרים מסוג זה הידועים בביצועים הירודים שלהם, אבל לא אתייחס לפרט זה במסגרת רשומה זו. למרות שבאופן עקרוני ניתן לבצע לחיצה כפולה על אותם הקבצים כדי לפתוח אותם ב־OpenOffice או ב־Microsoft Access, להערכתי מדובר בפעולה מסוכנת ולא נוכל לדעת בקלות מה אותם גורמים עוינים הכניסו לקובץ. במקום זאת, אשתמש בפקודות השורה שזמינות בחבילה mdbtools.

צפייה בטבלאות שקיימות בקובץ:

$ mdb-tables NewIsrael.mdb
tblCards

כלומר בקובץ הנ"ל קיימת טבלה אחת בלבד. בואו נייצא אותה לקובץ מסוג csv.

mdb-export NewIsrael.mdb tblCards > NewIsrael.csv

עכשיו כשיש לנו קובץ טקסטואלי איננו צריכים יותר את קובץ ה־mdb ואפשר למחוק אותו.

השלב הבא היה לקבל את רשימת אנשי הקשר. בחרתי לייצא אותם מ־gmail; ניתן לעשות זאת דרך contacts.google.com, לבחור ב־More,‏ Export, ואז לייצא את רשימת אנשי הקשר שלך כקובץ מסוג Google CSV. התסריט שבהמשך יעבור עם קבצים מתצורה זו בלבד אם כי ניתן בקלות להתאים אותו גם לתבניות האחרות.

עכשיו, לאחר שסיימנו את ההכנות אפשר להגיע למלאכה עצמה. קובץ ה־csv שקיבלנו מגוגל מקודד בתור יוניקוד טהור, בעוד שהטרמינל שלנו עובד ב־UTF-8, ולכן נבצע המרה של הקובץ לתבנית זו. לאחר מכן נייצא מהקובץ את העמודות הרלוונטיות לנו (אלו של כתובות הדואר האלקטרוני), נבצע קצת נקיונות בקובץ, ונריץ חיפוש.

לאחר שגיליתי שהרצה של פקודת grep לוקחת יותר מידי משאבים מהמחשב כאשר מריצים אותה על תבניות רבות (כל כתובת מהווה תבנית בפני עצמה, ולא ביצענו שום נסיון לייעל את הכתובות ולאחד כתובות דומות) החלטתי לפרק את קובץ כתובות הדואר האלקטרוני למספר קבצים נפרדים ולבצע הרצה של פקודת ה־grep מחדש עבור כל 10 כתובות; זה אמנם אמור באופן תיאורטי לקחת זמן רב יותר לסיום, אבל מקטין באופן משמעותי את דרישת המשאבים של תהליך הסריקה. אפשר גם לבצע את הסריקות באופן מקבילי בשביל לקצר את פרק הזמן לקבלת התוצאות אבל אז נחזור לנקודה בה נגביר את דרישות משאבי הדיסק, הזכרון והמעבד.

# ‫גזירת כתובות הדואר האלקטרוני מקובץ google.csv שנשמר ב־/tmp/.‬
cat /tmp/google.csv | iconv -f unicode | grep , --color | cut -d, -f29 | sed '/^$/d' > /tmp/my_emails.txt
cat /tmp/google.csv | iconv -f unicode | grep , --color | cut -d, -f31 | sed '/^$/d' >> /tmp/my_emails.txt
cat /tmp/google.csv | iconv -f unicode | grep , --color | cut -d, -f33 | sed '/^$/d' >> /tmp/my_emails.txt
cat /tmp/google.csv | iconv -f unicode | grep , --color | cut -d, -f35 | sed '/^$/d' >> /tmp/my_emails.txt

# ביצוע פעולות ניקיון כלליות על קובץ הססמאות. במקרה שלי בחרתי להסיר מקרים בהם הופיעה המחרוזת "*" בתור כתובת דואר אלקטרוני מסיבה לא ידועה.‏
sed '/^\*$/d' < /tmp/my_emails.txt > /tmp/my_emails2.txt

# ביצוע סריקה בודדת. אני לא משתמש בדרך זו כי היא דורשת משאבים רבים מהמחשב.‏
# הקוד החלופי מופיע בהמשך.‏
# grep --color -f /tmp/my_emails2.txt *

# פיצול קובץ הכתובות לקבצים נפרדים בעלי 10 שורות בכל קובץ. כלומר בכל קובץ
# נשמרות רק 10 כתובות דואר אלקטרוני (במקרה שלי נוצרו מעל 100 קבצים חדשים).‏
split -l 10 /tmp/my_emails2.txt /tmp/my_emails_splitted_

# לכל קובץ כתובות מפוצל בצע סריקה על כל אחד מהקבצים שנמצאים בתיקייה הנוכחית.‏
find /tmp -name my_emails_splitted_* -type f -exec grep --color -f '{}' * \;
rm /tmp/my_emails_splitted_*

אחרי שנריץ את התסריט נקבל במסוף רשימה ארוכה של תוצאות. בזכות השימוש בתכונת הצביעה של grep ניתן יהיה לזהות בקלות את הכתובות שמעניינות אותנו. עכשיו כל מה שנותר זה לנסח הודעה יפה ולהתריע לאותם חברים כי הם נחשפו.

שלא נדע מצרות.