Портрет 4X_Pro
Был в Сети 29 апр. 2024 г., 01:19
Мультиблог
4X_Pro
Кратко о себе: Web-разработчик. Пишу на PHP, Python, JavaScript. Знаю Ruby и Go, со студенческих времён более-менее помню C и asm. Сейчас специализируюсь на ускорении загрузки сайтов и разработке ботов для Telegram. Linuxоид (использую Debian+LXDE). Сторонник IndieWeb.

Социальные сети


Новости сайта в Telegram

t.me/4x_pro

Идеи и размышления

В этом разделе я публикую те идеи, которые могут сделать жизнь лучше, но которые не могу реализовать сам (чаще всего из-за нехватки ресурсов). Буду рад, если они пригодятся кому-либо еще.

Алгоритм расчёта социального доверия

4X_Pro
Наверное, каждый, получая запрос в друзья в социальной сети от незнакомого человека, задавался вопросом, а кто это вообще и что от него ожидать. Нормальный ли это человек, желающий пообщаться, тролль, просто неадекват или очередная попытка продать что-то? Большие социальные сети, такие как VKontakte или Facebook, пытаются решить эту проблему, показывая список общих друзей. Но этого явно недостаточно: кто-то из друзей добавляет всех подряд, кто-то добавился к вам в друзья много лет назад, но вы с ним давно не общались и уже толком не помните кто это. Или же общих друзей и вовсе нет. Возникает необходимость в какой-то дополнительной оценке незнакомца, причем такой, чтобы ее можно было посчитать алгоритмически.
Но что же может быть исходными данными для такого алгоритма? Для начала рассмотрим первый уровень социального графа — тех людей, с которыми мы когда-либо взаимодействовали в Сети непосредственно. Среди них есть те, с кем мы с кем мы общаемся интенсивно, кому уделяем больше времени, и те, о ком даже вспоминаем изредка. Очевидно, что в большинстве случаев уровень доверия у первых выше. Но измерить время общения напрямую — задача сложная, кроме того, еще будет влиять скорость чтения и скорость печати. Гораздо проще измерять результаты взаимодействия: подсчитать количество лайков, репостов, комментариев, личных сообщений — иными словами, социальных взаимодействий. Очевидно, что разные взаимодействия будут иметь разный «вес»: полноценный комментарий ценнее простого лайка. Ориентировочно значения коэффициентов такие: лайк — 1, личное сообщение — 1, репост без комментария — 2, репост с комментарием — 3, написание комментария к сообщению — 5, отправка записи на стену — 6, добавление в друзья — 15, нахождение в одной группе — 1. Также можно ввести еще отрицательный коэффициент за бан, но это немного усложит расчеты. При этом считаются только взаимодействия с нашей стороны, чтобы сделать рейтинг устойчивым к накрутке. Теперь, просуммируем вес взаимодействий по каждому пользователю (обозначим это как Ni) и общий вес всех наших взаимодействий (Ns) и рассчитаем коэффициент доверия как их отношение:

T0,i=Ni/Ns

Перейдем теперь ко второму уровню социального графа. На нем находятся все те, с кем взаимодействовали пользователи первого уровня (но для избежаний зацикливания исключим из их числа тех, для кого уже известны коэффициенты доверия, то есть себя и других пользователей 1-ого уровня), проще говоря — «друзья друзей». Для каждого пользователя первого уровня мы можем посчитать их коэффициенты доверия по отношению к пользователям второго уровня по той форумле, которая была описана на предыдущем шаге (обозначим их как Ti,j, где i — i-ый пользователь из первого уровня, j — j-ый пользователь второго уровня, а нулевой пользователь — мы сами). Очевидно, что наше доверие «другу друга» должно определяться двумя составляющими — тем, насколько ему доверят «друг» с первого уровня, и тем, насколько мы доверяем «другу». С точки зрения математики это можно записать как произведение соответствующих коэффициентов доверия. Но часто бывает так, что с одним пользователем второго уровня взаимодействовало несколько человек из тех, с кем взаимодействуем мы. В этом случае нужно просто просуммировать получившиеся произведения коэффициентов доверия. В итоге получаем следующую формулу (суммирование ведется по i):

T0,j=∑T0,i*Ti,j

Зная коэффициенты доверия к пользователям второго уровня социального графа, можно аналогичным образом рассчитывать коэффициенты для последующих уровней. Делать это потребуется до того момента, пока не доберемся до уровня, на котором находится тот незнакомец, уровень доверия к которому необходимо рассчитать. Если предположить, что «теория семи рукопожатий» верна, то получится, что таких уровней будет не более семи.

За счет того, что мы считаем только взаимодействия, инициированные самим пользователем, алгоритм является устойчивым к накруткам до тех пор, пока верно предположение, что большинство людей в нашем окружении первого-второго уровней не взаимодействуют с деструктивными аккаунтами (боты, спаммеры) активнее, чем с нормальными людьми. Кроме того, следует учитывать, что некоторые виды взаимодействий (в первую очередь комментарии) могут не означать доверие в привычном смысле этого слова. Например, можно писать множество комментариев тому, кто по тем или иным причинам вызывает бурное неприятие.

Главная сложность в реализации этого алгоритма для больших социальных сетей (Одноклассники, ВК, Facebook) заключается в том, что нет готовых методов, которые позволили бы быстро получить количество взаимодействий. Чтобы подсчитать количество лайков, репостов и т.п., нужно просканировать всю соцсеть, что с учетом ограничений на количество запросов по API в единицу времени, будет очень долгой операцией. А часть информации — количество личных сообщений или факт внесения в черный список — и вовсе останется недоступной.

Но существуют так же и децентрализованные соцсети, основанные на open source-решениях и расширяемых протоколах, например, Diaspora или Mastodon. В них эту проблему можно решить гораздо горзадо проще: модифицировать программное обеспечение таким образом, чтобы подсчитывались все исходящие взаимодействия, а потом добавить в протокол либо выдачу их количества (показателя Ni), либо самого доверия вместе с профилем пользователя или с списком его друзей. Более того, на мой взгляд, реализация такого алгоритма может дать дополнительное преимущество таким соцсетям и стать одним из факторов, который развернет Интернет обратно в сторону децентрализации.

Инфохаб

4X_Pro
Давно задавался вопросом, что придет на смену социальным сетям, и, кажется, нашел на него ответ. На смену социальным сетям в их нынешнем виде придет то, что я назвал инфохабом — некая площадка, которая позволяет собрать в одно место все важные для человека информационные потоки и управлять ими. Базовые функции — те же, что и в социальных сетях, но есть несколько принципиальных отличий:
  1. наличие переключаемых статусов с разграничением доступа (во многом аналогично тому, как это было в ICQ в свое время), например «готов общаться» — доступ открыт всем, «работаю» — доступ только набору контактов по работе, остальным приходит автоответ, что пользователь сейчас не доступен, ждите, «отдыхаю» — доступ имеет только другой набор контактов, и т.д. Статусы пользователь может создавать сам.
  2. возможность собирать информацию из множества источников. Как минимум, в инфохаб должны быть встроены клиенты к уже существующим соцсетям + RSS-клиент (еще одна вещь, которой мне крайне не хватает ВКонтакте). Причем видимые источники тоже зависят от выставленного статуса, так, например, при переключении статуса в «работаю» становятся недоступными ленты, помеченные как развлекательные.
  3. возможность пометить материал для того, чтобы прочитать/посмотреть позже (сейчас она, к сожалению, есть только в YouTube), причем в идеале еще с возможностью задать приоритет (сейчас мне этого очень не хватает ВК).
  4. разделение лайков как выражения одобрения, согласия и т.п. и оценки полезности материала.
  5. наличие возможности выкладывать больше количество своих материалов, которые не будут «уезжать» со временем (аналог Заметок, которые были ВК, кажется, до 2012 года).
  6. более развитые блоговые возможности (что у FB, что у ВК с этим весьма печально).
Как это может быть реализовано? На мой взгляд, есть два варианта:
  1. Web-приложение, которое будет работать в режиме децентрализованной социальной сети, так, что каждый сможет держать свой инфохаб на собственном сервере с полным контролем над ним
  2. мобильное приложение, которое, по сути дела, будет мульти-клиентом для социальных сетей (аналогично тому, как как QIP и Pidgin являются мульти-клиентами для мессенджеров первого поколения). К сожалению, в этом случае непонятно, как реализовать функции хранения собственных материалов из пункта 5.

Социальный поиск

4X_Pro
Около года назад мне пришла в голову идея социального поиска, который мог бы решить три проблемы: проблему поискового спама, проблему достоверности информации в Интернете, и проблему нечеткого поиска (когда есть желание найти информацию по какой-то достаточно широкой теме, но нет конкретного запроса). Социальный поиск сочетает в себе функции поисковика, каталога сайтов и социальных закладок.
Суть его в следующем: создается сайт, по функционалу близкий к социальной сети, где каждый пользователь, может сделать подборку сайтов по определенной теме, которые считает надежными, и опубликовать ее . Поиск осуществляется в два этапа: на первом выбирается подходящая подборка, на втором — вводится запрос, который передается обычному поисковику с указанием искать только на сайтах из этой подборки. Каждую подборку можно рейтинговать и комментировать, а также просматривать все имеющиеся в ней сайты. Еще может быть функция «предложить сайт в подборку». Таким образом, получаем, что доверие к результатам социального поиска основывается не на доверии к поисковым алгоритмам, отбирающим информацию из всего Интернета (которые, по сути, представляют собой «черные ящики», а на доверии к пользователям, составляющим подборку, а поисковик выступает в роли исключительно технического средства, подбирающего нужную страницу в пределах уже отобранных сайтов.
В принципе, у Яндекса уже есть готовая технология для реализации этой идеи — конструктор форм поиска по сайтам (возможно, у Google тоже есть что-то подобное), и все сводится к тому, чтобы создать сервис, на котором эти формы публиковались бы (и был реализован прочий функционал типа рейтингов). Вопрос в том, как набрать и замотивировать критическую массу людей, которые занялись бы составлением этих подборок. У кого-нибудь есть идеи?

Сенсорный экран с распознаванием пальцев

4X_Pro
В очередной раз увидел на Хабре дискуссию про способы взаимодействия "человек-машина". Возникла мысль, что следующим шагом в развитии интерфейсов должен стать сенсорный экран, который не просто реагирует на нажатия, а умеет распознавать, каким пальцем оно сделано, и в зависимости от этого выполнять разные функции. То есть экран станет аналогом не однокнопочной мыши, как сейчас, а пяти или даже десятикнопочной. (Помнится, еще на старой работе, где имел довольно много дела с сенсорными экранами, никак не мог привыкнуть к тому, что с такого экрана никак нельзя сделать щелчок "правой кнопкой".)
Не очень представляю, как это реализовать технически. Пока есть две идеи: а) сделать экран обучаемым под конкретного пользователя за счет точного измерения емкости, создаваемой каждым из пальцев, б) каким-то образом распознавать не только прикосновение, но и положение руки целиком, когда она приближается к экрану, и распознавать палец на основе соотношения пятна нажатия и центра руки.
Второе усовершенствование экрана, которое возможно уже сейчас, — это программное "подтягивание" нажатий к активным элементам. Для этого нужно, чтобы экран передавал графической системе не координаты одной точки, а координаты всего пятна нажатия, а та накладывала это пятно на активные элементы экрана (кнопки, поля ввода и т.д.) и обнаруживала, на какой из них приходится максимальная площадь.

Клеточные автоматы и распространение идей в обществе

4X_Pro
Прочитал сегодня на Хабре про клеточные автоматы, и пришла в голову мысль, что если совместить их с социальным графом (в смысле, использовать его в качестве решетки для клеточного автомата), то они окажутся идеальным средством моделирования распространения какой-либо идеи в социуме.
Для этого граф надо сделать взвешенным, где вес узлов — это коэффициент убежденности в идее (kубежд), причем он лежит в диапазоне от -1 до +1 (условно назовем тех, у кого коэффициент больше нуля — "верующими", а тех, у кого он отрицателен — "атеистами"), а вес ребер — интенсивность взаимодействия между двумя людьми. Начальное состояние системы — вес всех узлов равен нулю, кроме одного — начального носителя этой идеи ("верующего"), у которого он равен единице.
Далее, на каждом шаге работы алгоритма любой узел с ненулевым коэффициентом убежденности определяет, будет ли он с кем-то взаимодействовать на этом шаге (рассказывать про идею). Вероятность взаимодействия равна модулю коэффициента убежденности. Если узел решил, что будет, он выбирает один из соседних узлов (выбор делается случайно, вероятность выбора определяется весом ребра графа) и пытается с ним провзаимодействовать. В ходе этого взаимодействия определяется коэффициент убежденности соседа на основе следующих данных: его предыдущего уровня убежденности (kсосед.пред), уровня убежденности того, кто инициировал взаимодействие и некоего диапазона возможных изменений kизм.min и kизм.max, причем kизм.min может быть меньше нуля, то есть неудачная попытка донести идею может привести к обратному эффекту — человек сделает шаг в сторону "атеизма". Самый простой вариант формулы kсосед = kсосед.пред + kубежд*random(kизм.min,kизм.max), но в общем случае возможен учет и других параметров, скажем, возраста (у более старших людей меньше вероятность изменить убеждения), социотипа (в первую очередь, ценностных функций) и нонкомфорности (т.е. установки "если все делают так, что я буду не как все").
В результате с помощью такой модели можно оценивать во-первых, сколько времени может занять распространение идеи естествнным образом, во-вторых, решить, кому в первую очередь должен рассказывать идею ее первый носитель, чтобы добиться для себя максимально положительного эффекта (либо максимум "верющих" и минимум "атеистов" вообще, либо в пределах какой-то определенной целевой аудитори).
Также можно использовать эту модель для изучения борьбы двух противоположных идей.

Электронный нотариус

4X_Pro
Интересно, додумается ли когда-нибудь человечество создать электронного нотариуса, который автоматически составлял бы типовые договора и заверял подписи? Насколько я понимаю, это технически это станет достаточно просто, когда массово внедрятся биометрические паспорта. По сути, все что должна будет сделать такая система — это провести идентификацию всех участников, записать на видео/аудио их подтверждение, что они понимают что делают и согласны с условиями (и может быть, взять экспресс-анализ крови, чтобы убедиться, что человек трезв и не под препаратами), и все. А дальше обеспечить надежное хранение этой информации, чтобы при необходимости ее можно было использовать в суде.

Наукометрия: индекс "хвоста кометы" для публикации

4X_Pro
Сегодня вспомнился вдруг индекс Хирша, и я задумался над тем, почему в нем (и дргуих подобных системах) совершенно не учитывается такой фактор как время. Ведь чем большее влияние оказала та или иная публикация на развитие науки, тем дольше о ней будут помнить и на нее ссылаться. Кроме того, на мой взгляд, еще важно учитывать, насколько значимыми оказались статьи, ссылавшиеся на данную статью, то есть аналиировать дерево ссылок (хотя бы на три-четыре уровня).
В результате у меня возникла идея, которую я назвал "индексом хвоста кометы" для публикации. Рассчитывать его можно тремя способами:
1) простой вариант:
I = ΣΔTi⋅ki,
где ΔTi — промежуток времени, прошедший между выходом исходной статьи и i-ой публикации со ссылкой на нее (полагаю, удобнее всего брать его в годах, причем значение может быть не целым), ki — весовой коэффициент ссылки (равен 1/Ni, где Ni — общее число ссылок в i-ой статье), суммирование ведется по всем ссылающимся статьям, которые не являются тупиковыми (т.е. на них тоже есть ссылки).
2) древовидный вариант: отличается от предыдущего, что суммирование ведется по всем статьям, которые ссылаются на исходную без учета тупиковости (назовем их статьями первого уровня), а также по статьям, которые ссылаются на статьи первого уровня и т.д. (число уровней выбирается исходя из количества данных, которые требуется обработать для расчета, думаю, больше трех-четырех рассматривать не имеет смысла). При этом для статей m-ого уровня (начиная со второго) коэффициент ki считается как ki=kj*1/Ni, где kj — коэффициент статьи m-1 уровня, на которую ссылается i-ая статья.
3) нормированный вариант: считается простой или древовидный коэффициент, после чего он делится на T — время, прошедшее с момента публикации.
Пожалуй, основной недостаток данного метода — это то, что для его эффективной работы нужен достаточно большой промежуток времени. Но с другой стороны, ничего удивительного здесь нет: зачастую для того, чтобы значимость той или иной работы стала понятна (или наоборот, отсеялись малозначимые работы), тоже необходимо время.

Бизнес-идея: приложение "Знакомства на прогулке"

4X_Pro
Недавно пришла в голову идея мобильного приложения "Знакомства на прогулке". Как видно из назнвания, оно предназначено для знакомств во время прогулок по городу или парку, атакже на массовых мероприятий, на которых находится множество незнакомых между собой людей (например, празднование дня города или концерт какой-нибудь музыкальной группы). Приложение работает следующим образом: пользователь запускает его, делает фотографию камерой, указыает о себе базовую информацию (имя, пол, возраст, что-то аналогичное статусу ВК) и задает радиус, в котором его должно быть видно. После этого ему на карте показываются лица противоположного пола, находящиеся в этом радиусе, у которых тоже запущено это приложение, после чего можно вступить с ними в переписку или сразу пойти знакомиться вживую.
Если пользователь выходит за пределы указанного радиуса, приложение автоматически отключается (это позволяет избежать случайного "засвечивания" домашнего адреса — одной из основных причин, почему многие не решаются воспользоваться знакомствами по карте) и он пропадает с карты. Положение пользователей на карте обновляется в режиме реального времени. Остальные функции — такие же как у обычных приложений знакомств: переписка, список друзей или черный список, подарки. Как вариант, вместо всего этого просто предусмотреть возможность отправлять запросы на показ номера мобильного или другой контактной информации.
Возможные варианты монетзизации:
1) традиционный (реклама + платные подарки) — не уверен, будет ли работать, так как есть возможность сразу же перейти к общению вживую
2) платный режим невидимки, когда самого пользователя не видно, но он имеет возможность видеть окружающих и выбирать, кому написать. 
В принципе, изначально хотел сделать такое сам, но не имею ни малейшего представления, как раскрутить подобное, а без массовости оно просто не будет работать. (Кроме того, нет опыта написания под Android, а также желания вкладываться в сервер, способный выдержать нагрузку, если приложение станет действительно популярным.) Поэтому решил просто подарить эту идею любому желающему, который сможет ее реализовать.

Датацентры в Арктике

4X_Pro
Недавно вспомнил книжку Паршева "Почему Россия не Америка" и задумался над вопросом, а можно ли использовать холодный климат России как преимущество, и если да, то в чем именно. И сразу же подумалось об охлаждении серверов: если разместить датацентр в Арктике (скажем, в районе Архангельска, к которому, скорее всего, подведены достаточно широкие каналы связи), то, по идее, большую часть года можно использовать естественное воздушное охлаждение, что может очень значительно снизить затраты как на создание системы кондиционирования, так и на расход электроэнергии при ее эксплуатации. Кроме того, участок земли под ДЦ в той же Архангельской области будет стоить существенно дешевле, чем в Московской. Соответственно, возник вопрос: неужели никто раньше до подобного не додумался? Или же экономия слишком незначительна?

Язык смайликов

4X_Pro
Недавно прочитал новость про добавление в Unicode новых символов-смайликов. Это навело меня на мысль, что рано или поздно возникнет "язык смайликов", то есть возможность общаться только ими, причем язык этот будет международным, так как смайлики будут пониматься одинаково всеми. Фактически, все что для этого нужно — это выработать некие правила построения сложных понятий на основе группирования смайликов, и способы обозначения абстрактных понятий, например, временных и причинно-следственных связей.
Интересно, как использование такого языка скажется на мышлении?

Страницы:
Задать вопрос

Здесь можно задать мне вопрос или спросить совета по любой теме, затронутой в блогах или на форуме. После того, как я отвечу, вопрос и ответ появятся в соответствующем разделе. Но не забываем, что я — сторонник slow life, поэтому каких-либо сроков ответов не обещаю. Самые интересные вопросы станут основой для новых тем на форуме или записей в блоге.
Сразу предупреждаю: глупости, провокации, троллинг и тому подобное летит прямо в /dev/null.