В частности, во вторник хотел было сесть за описание собственной методики управления временем и контроля за жизнью. Но дальше заголовка дело не пошло, весь день ушёл на что-то другое. А вечером взялся за другую свою идею: попытался написать бинарный классификатор, который определял бы спам. Но в процессе полезла масса проблем. В качестве базы решил взять Типач. Там среди удалённых сообщений образцов спама предостаточно, и казалось, что уже есть готовая разметка: удалено — спам, нет — допустимое. Решил было экспортировать все сообщения из него в CSV. Но в процессе полезла масса проблем. Во-первых, оказалось, что многострочный CSV не так-то просто импортировать в LibreOffice Calc так, чтобы это прошло корректно. Провозился долго.
Читать далее…
