МЕТОДЫ МАШИННОГО ОБУЧЕНИЯ ДЛЯ ПРЕДСКАЗАНИЯ РАСПРОСТРАНЕНИЯ ИНФЕКЦИИ В СЕТИ
П.А. Сулимов
Центральный банк РФ, ул. Неглинная, 12, Москва, 107016, Россия sulpav@yandex.ru
Ключевые слова: социальная сеть, модель заражения, link prediction problem, random forest, the social network model of infection, link prediction problem, random forest
Страницы: 285-306 Подраздел: ТЕОРЕТИЧЕСКИЕ ПОИСКИ И ПРЕДЛОЖЕНИЯ
Аннотация
Запуск в 2004 г. Facebook послужил толчком для исследования вопроса, как люди взаимодействуют друг с другом в рамках социальной сети, в которой они состоят. С тех пор прошло уже более 10 лет и появилось множество тематических социальных сетей: Twitter, Instagram, LinkedIn, Flickr и т.д. Во всех перечисленных социальных сетях люди обмениваются какой-либо информацией: фотографиями, ссылками, контактами и пр. Информация - своего рода вирус, передающийся от человека к человеку. Соответственно распространение информации в социальной сети рассматривается автором с точки зрения модели заражения (epidemics in social network). В работе ставится задача предсказания порога эпидемии (пороговой характеристики сети, при превышении которой сеть гарантированно оказывается полностью зараженной) в момент времени t+1 на основании исторических данных за периоды t, t-1 и ранее. Для решения поставленной задачи необходимо знать, как поведет себя сеть в момент времени t+1, будет ли граф сети связным, какие связи разорвутся, а какие появятся и т.д. Ведь именно этим определяются скорость распространения инфекции по сети и порог эпидемии. Соответственно возникает проблема Link Prediction Problem, которая решается методами машинного обучения (Random Forest, Support Vector Machines) путем отнесения пар вершин к классам соединенных и несоединенных и предсказания класса пары вершин в момент времени t+1 на основании топологических и факторных характеристик узлов сети. Таким образом, результатом исследования является алгоритм прогнозирования распространения инфекции в социальной сети при помощи методов машинного обучения.
|