Хаотичная активность последних дней
Вся эта неделя оказалась наполнена какой-то хаотичной активностью. Вдруг начал пытаться браться за всё, что раньше откладывал. Возможно, повлияло то, что спал сколько требуется и ложился раньше четырёх утра.
В частности, во вторник хотел было сесть за описание собственной методики управления временем и контроля за жизнью. Но дальше заголовка дело не пошло, весь день ушёл на что-то другое. А вечером взялся за другую свою идею: попытался написать бинарный классификатор, который определял бы спам. Но в процессе полезла масса проблем. В качестве базы решил взять Типач. Там среди удалённых сообщений образцов спама предостаточно, и казалось, что уже есть готовая разметка: удалено — спам, нет — допустимое. Решил было экспортировать все сообщения из него в CSV. Но в процессе полезла масса проблем. Во-первых, оказалось, что многострочный CSV не так-то просто импортировать в LibreOffice Calc так, чтобы это прошло корректно. Провозился долго. Во-вторых, оказалось, что если удаляется тема целиком, то статус «удалена» ставится только ей, а не сообщению, и пришлось переписывать SQL-зарпос, чтобы это учесть (да ещё не сразу понял, в чём именно проблема). Во-вторых, часть удалённых сообщений была не спамом, а была либо дублями, либо сообщениями в духе «удалите предыдущее» после дубля. Пришлось вручную просматривать все сообщения, помеченные как удалённые, и проверять разметку. Но самое неприятное было дальше. Сначала оказалось, что Debian не хочет ставить пакет python3-keras, и почему — непонятно. После долгих попыток решить вопрос пришлось делать как не надо — ставить через pip. Но наконец-то поставил, и тут новая проблема: при попытке обучить модель программа падала на этапе деления выборки на тестовую и обучающую. И это при 8 Гб свободной памяти! То ли реально ML — настолько прожорливая штука, что даже 8 Гб может не хватить (при том, что выборка — всего чуть больше 14000 записей), то ли проблемы возникли из-за кривой установки keras. В общем, так и забросил (хотя сейчас есть мысль попробовать запустить на Google Collab, может там сработает нормально).
А в среду я вдруг вернулся к своей давней идее мобильного сообщества. Даже начал писать код, причём не на MLFW, как задумывал изначально, а по принципу минимализма, в духе старых CMS, которые делают ровно то, для чего создавались. И без всяких namespaces, которые меня всё-таки раздражают, хоть я и научился видеть их плюсы на больших проектах. А в качестве базы решил использовать SQLite. Два дня занимался этим, а сегодня снова снесло потоком жизни на бытовые дела. И, кстати, этот же код, наверное, возьму за основу для движка сайта-личного архива. Правда, сейчас идея сделать его как-то потускнела, мотивация пропала…
В частности, во вторник хотел было сесть за описание собственной методики управления временем и контроля за жизнью. Но дальше заголовка дело не пошло, весь день ушёл на что-то другое. А вечером взялся за другую свою идею: попытался написать бинарный классификатор, который определял бы спам. Но в процессе полезла масса проблем. В качестве базы решил взять Типач. Там среди удалённых сообщений образцов спама предостаточно, и казалось, что уже есть готовая разметка: удалено — спам, нет — допустимое. Решил было экспортировать все сообщения из него в CSV. Но в процессе полезла масса проблем. Во-первых, оказалось, что многострочный CSV не так-то просто импортировать в LibreOffice Calc так, чтобы это прошло корректно. Провозился долго. Во-вторых, оказалось, что если удаляется тема целиком, то статус «удалена» ставится только ей, а не сообщению, и пришлось переписывать SQL-зарпос, чтобы это учесть (да ещё не сразу понял, в чём именно проблема). Во-вторых, часть удалённых сообщений была не спамом, а была либо дублями, либо сообщениями в духе «удалите предыдущее» после дубля. Пришлось вручную просматривать все сообщения, помеченные как удалённые, и проверять разметку. Но самое неприятное было дальше. Сначала оказалось, что Debian не хочет ставить пакет python3-keras, и почему — непонятно. После долгих попыток решить вопрос пришлось делать как не надо — ставить через pip. Но наконец-то поставил, и тут новая проблема: при попытке обучить модель программа падала на этапе деления выборки на тестовую и обучающую. И это при 8 Гб свободной памяти! То ли реально ML — настолько прожорливая штука, что даже 8 Гб может не хватить (при том, что выборка — всего чуть больше 14000 записей), то ли проблемы возникли из-за кривой установки keras. В общем, так и забросил (хотя сейчас есть мысль попробовать запустить на Google Collab, может там сработает нормально).
А в среду я вдруг вернулся к своей давней идее мобильного сообщества. Даже начал писать код, причём не на MLFW, как задумывал изначально, а по принципу минимализма, в духе старых CMS, которые делают ровно то, для чего создавались. И без всяких namespaces, которые меня всё-таки раздражают, хоть я и научился видеть их плюсы на больших проектах. А в качестве базы решил использовать SQLite. Два дня занимался этим, а сегодня снова снесло потоком жизни на бытовые дела. И, кстати, этот же код, наверное, возьму за основу для движка сайта-личного архива. Правда, сейчас идея сделать его как-то потускнела, мотивация пропала…