Интернет предоставил информатике здравоохранения новый взгляд на изучение вопросов, связанных со здоровьем. Например, основанные на Интернет-данных био-наблюдения и цифровое обнаружение заболеваний были использованы для понимания возникающих угроз заболеваний. Основной упор предыдущих усилий был сделан на выявлении вероятности новых вспышек, основанном на наблюдениях за увеличением упоминаний терминов, связанных с болезнью. Например, Google Flu Trends отображает количество запросов в поисковой системе слова грипп и связанных с ним терминов и предсказывает новые вспышки гриппа, как изменения в частоте таких запросов. Хотя эти типы подходов были успешно применены к отслеживанию и мониторингу вспышек заболеваний, появление социальных медиа позволяет выйти за рамки путем включения новой информации о мнениях и взглядах на проблемы со здоровьем людей.
Целью данного исследования является изучение того, как такая структура сообщения о здоровье может быть отделена от индивидуального вклада и его стоимости. В работе была использована вспышка кори в 2015 году и демонстрируется, как извлекаются описательные элементы и как они относятся к текущей общественной дискуссии по этому вопросу. В статье показано относительное влияние на этот процесс различных источников информации (а именно СМИ и авторитетных организаций здравоохранения) и выделяются кибер- и пространственные следы продолжающихся дебатов о вакцинации.
Понимая мощный потенциал социальных медиа для коммуникации в сфере здравоохранения, в 2014 году ВОЗ использовала Твиттер, чтобы сообщать информацию о вспышке лихорадки Эбола в Западной Африке. Тем не менее, общественное мнение формируется не только как процесс, протекающий сверху вниз (т.е., авторитетные источники, такие как ВОЗ, доводят свое мнение до широкой общественности), но и как процесс, протекающий снизу вверх (в результате чего отдельные пользователи устанавливают круги влияния). Такие формы сообщений о здоровье являются сложными и должны быть лучше изучены. Данная статья способствует достижению этой цели, представляя собой изучение повествования в Твиттере относительно вакцинации против кори в начале 2015 года, акцентируя внимание на пересечении этого повествования и широко распространенного движения против вакцинации.
Основные методы
Целью данного анализа было изучение Твиттер-сообщений о вакцинации в период после вспышки кори 2015. С этой целью, с помощью интерфейса прикладного программирования Твиттера (API) был открыт сбор твитов с 1 февраля по 9 марта 2015 года, используя ключевое слово "вакцинация" или его производные, которые часто встречаются в социальных медиа (а именно “vaccine,” “vaccines,” “vax,” “vaxine,” “vaxx”). Эти 6 вариантов термина "вакцинация" были выбраны после краткого изучения трафика Твиттера, связанного с вакцинацией, для 48-часового периода. В этом предварительном исследовании, эти пять вариантов были преобладающими среди альтернативных версий слова «вакцинация», и были использованы вместе с ним в последующем формальном изучении.
Сбора данных из Твиттера был произведен с помощью системы The GeoSocial Gauge, использующей заданный пользователем набор параметров:ключевые слова, место и время. Эта система позволяет исследователям получить фактическое содержание твитов, а также его метаданные, включая такую информацию, как имя пользователя, временную метку и местоположение. Система также выполняет основной количественный анализ извлеченных данных. Гео-социальный аналитический подход был использован для изучения географического распределения твитов, а также свойств социальной сети.
Используя упомянутые выше ключевые слова, в общей сложности было собрано 669,136 твитов по всему земному шару. Среди этих твитов, 356,248 твитов (53,24% от общего числа) имели некоторую геолокацию, указывающую местоположение пользователя, который их отправил. В общей сложности 6266 твитов имели геолокацию в виде точных координат (с точностью до нескольких метров) и, как правило, такие твиты размещаются с помощью мобильных телефонов. 351973 твитов были географически привязаны на уровне города или района. Такие данные по геолокации согласуются с цифрами других исследований.
Рис. 1. Глобальное распределение твитов в массиве данных
На рисунке 1 показано глобальное распределение геопривязанных твитов в массиве данных, 60.18% из них (214 396/356 248), берут начало в Соединенных Штатах. Аналогичным образом, более половины (54,69%, 3432/6266) из точно геопривязанных твитов возникли в Соединенных Штатах. В таблице 1 приведены 10 стран, предоставляющих большинство твитов в течение этого периода. Твиты из Соединенных Штатов доминируют с объемом вклада на порядок больше, чем у второй страны (Канады), и на два порядка больше, чем у стран, завершающих этот список. Такая модель распределения взносов не является редкостью в Твиттере, особенно когда на него воздействует такое заметное событие (каким была вспышка кори 2015 для данного исследования), которое, как правило, увеличивает траффик Твиттера.
Country |
Tweets (% of geolocated total), n (%) |
United States |
214,396 (60.18) |
Canada |
20,039 (5.63) |
United Kingdom |
15,018 (4.22) |
India |
9249 (2.60) |
Australia |
8207 (2.30) |
Indonesia |
2864 (0.80) |
France |
2492 (0.70) |
Pakistan |
2448 (0.69) |
Germany |
2370 (0.67) |
Nigeria |
2263 (0.63) |
Что касается частоты взносов, эти данные отражают в среднем чуть более 18000 твитов в день, или более 750 твитов в час (5794 - геопривязанные твиты происходящие ежедневно из Соединенных Штатов); 272,795 различных пользователей участвовали в Твиттер-обсуждении. Хотя это означает, в среднем 2,45 твита по теме от одного пользователя, участие в социальных медиа отклоняется от нормального распределения, а имеет тенденцию следовать степенным законам: большое количество пользователей пишут нечасто, в то время как небольшое число из них очень плодовиты. Такое поведение согласуется с наблюдаемыми в блогосфере характеристиками и сравнимо с поведением, наблюдаемым на интернет-форумах. В массиве данных, среднее число поствакцинальных твитов каждого пользователя было 5, в то время как трое самых активных пользователей создавали более 1000 твитов каждый. Шесть из 10 самых плодовитых авторов –видные противники вакцинации (учетные записи здесь не приводятся из соображений конфиденциальности).
Анализ объектов
Основная задача заключалась в оценке характеристик сообщений о вакцинации в кибер и физических пространствах. Для этой цели в исследовании оцениваются характеристики дискуссионных терминов, которые содержатся в Твиттер-сообщениях и в сообщениях сообществ, которые были вовлечены в эту дискуссию. Рисунок 2 обобщает такой подход. Используя набор ключевых слов и потенциальных географических областей, был получен доступ к API Twitter для сбора данных - сбора твитов, включающих эти ключевые слова и происходящих из интересующей области. Затем эти твиты были проанализированы для извлечения терминов и шаблонов, которые раскрывают структуру сообщения. Эта структура включает в себя три аспекта: текст, формы ретвитов и пространственные структуры.
Рис. 2. Структура используемого подхода
Что касается анализа текста, были определены доминантные термины и популярные хэштеги, а также их объединения в виде совместных появлений. Термины и хэштеги служат в качестве эквивалента ключевых слов для общего повествования: они отражают темы, которые считаются актуальными и важными для широкой общественности. Что касается коммуникационных моделей - как они проявляются через ретвиты - основная цель модели состоит в том, чтобы оценить влияние различных источников информации, противопоставляя различные типы авторитетного контента (например, организации здравоохранения и официальные новостные организации) и аргументы широких масс (например, сообществ против вакцинации). Также в работе оценивались пространственные структуры коммуникаций через изучение местоположений, откуда были написаны сообщения в социальных медиа. Это позволяет получить представление о результатах обсуждения в киберпространстве, а также установить связь между кибер- и физическим сообществами, и, следовательно, между продолжающимися дебатами в континентальной части Соединенных Штатов в отношении вакцинации.
Доминантные термины
Принимая во внимание конструкцию процесса сбора данных, все твиты в массиве данных для этого анализа включали слово «вакцинация» или одно из его производных. На рисунке 3 показано облако визуализации 75 наиболее часто встречающихся терминов в массиве данных, для обеспечения общего обзора доминирующих терминов. Из облака исключены слова «вакцина» и «вакцинация», из-за их очень высокой частоты появления (в 279,684 и 123,342 твитах соответственно), что сделает все другие данные незначительными. Из облака также исключены стоп-слова (артикли, предлоги и общие глаголы), поскольку такие слова являются общими для всех дискуссий и, следовательно, не несут смыслового значения. В облаке относительный размер каждого слова пропорционален его частоте появления (слова, написанные более крупным шрифтом, чаще встречаются в массиве данных). Хэштеги рассматриваются как отдельные слова. Например, корь и #корь рассматриваются как два отдельных термина. Хэштег указывает на более сильный акцент на слове, а не является просто ссылкой на него в пределах твита.
Рис. 3. Облако визуализации 75 наиболее часто встречающихся терминов в массиве данных
В таблице 2 перечислены 10 наиболее часто встречающихся, связанных со здоровьем, терминов в массиве данных. Перечень не включает слово «вакцинация» и различные его производные формы, стоп-слова, как было сказано выше, также не включает общие слова: новый, в настоящее время, люди, против. В таблице указано общее количество упоминаний в списке, наряду с процентом твитов, в которых присутствовал каждый термин.
Term |
Mentions (frequency) |
measles (and #measles) |
82,179 (12.28%) |
#cdcwhistleblower |
27,876 (4.17%) |
Ebola |
26,273 (3.93%) |
flu |
22,429 (3.35%) |
HPV |
19,253 (2.92%) |
polio |
16,749 (2.50%) |
health |
15,546 (2.32%) |
MMR |
14,777 (2.21%) |
#healthfreedom |
10,356 (1.55%) |
autism |
10,101 (1.51%) |
Корь - наиболее распространенный термин в твитах о вакцинации, что ожидаемо, учитывая, что эти данные были собраны во время вспышки кори в США в начале 2015 г. Кроме того, Эбола и ВПЧ (вирус папилломы человека) также встречаются среди главных терминов, связанных с обсуждением, что отражает общий интерес СМИ к вопросу о прививках от них в этот период.
Интересно отметить, что второй самый популярный термин был #cdcwhistleblower, который появился в августе 2014 года в качестве быстрого идентификатора для сообщества противников вакцинации. Этот термин возник в интернет-пропагандистском сообществе в качестве средства укрепления и продвижения своих взглядов. В отличие от этого, ссылки на официальные организации здравоохранения были редкостью. Например, CDC (Центр по контролю и профилактике заболеваний) имеет только 9611 упоминаний в массиве данных, что делает его 47-м по популярности термином, в то время как ВОЗ и NIH (Национальные институты здоровья) имеют только 351 и 330 упоминаний соответственно, и были не в топ-2000 терминов. Следовательно, данные указывают на то, что распространение информации «снизу вверх» (в виде #cdcwhistleblower) намного перевешивают информацию из официальных источников, таких, как например ВОЗ. Эта закономерность свидетельствует о комплексном понятии авторитета в распространении информации в социальных медиа.
Примеры коммуникации: ретвиты
Среди 669,136 твитов, ретвитами являются 296223 (и, соответственно, 372913 оригинальных твитов). На эти ретвиты приходится 44,27% от общего массива данных (42.20% в Соединенных Штатах и 45.25% за рубежом). Это существенно больше, чем официальные цифры, касающиеся ретвит-активности в Твиттере в целом, на ретвиты обычно приходится лишь 30% от общего трафика. Такое увеличение ретвитов сопоставимо с наблюдаемым в исследованиях Твиттер-трафика во время выборов, которые показали, что самоуверенные пользователи склонны ретвитить больше, чем их менее упрямые коллеги. Вакцинация является, по-видимому, "политической" темой среди пользователей Твиттера и высокий уровень ретвитов может отражать высокий уровень активности среди участников.
Пять самых популярных ретвитов:
1: “The Disneyland Measles Outbreak Is A Turning Point In The Vaccine Wars http://t.co/qHVBxyvDMF via @username1” (3399 retweets in the data corpus)
2: “@username2 @username3 Parents can delay timing of vaxx if they want more time between shots. Should be done by time they enter school.” (2899 retweets)
3. RT @username4: Anti-vax dad is cool with his kid fatally infecting others, also blames leukemia on vaccines. http://t.co/XuSkaK9SdQ http:/...” (2002 retweets)
4. RT @username5: Vaccination isn’t a private choice but a civic obligation.” F****’ A right. http://t.co/pNj5w7fp9t” (1630 retweets)
5. RT @username6: Vaccination rate at Google’s and Pixar’s daycare is less than 50% http://t.co/6GFxs6VDI2 http:/...” (1604 retweets)
Четыре из этих пяти твитов ссылаются на новости: первый был ссылкой на журнальную статью Forbes, опубликованную 4 февраля 2015; третий ссылался на историю CNN, опубликованную 2 февраля; четвертый - на обзор New York Times, опубликованный 7 февраля; и пятый – на статью Wired, опубликованную 11 февраля. В отличие от этого, наиболее цитируемым в течение этого периода был твит от @CDCGov (твиттер CDC) "Насколько эффективна вакцина против кори? Одна доза MMR VAX имеет эффективность ~ 93% при предотвращении #кори; 2 дозы имеют эффективность ~ 97% ". Это сообщение было размещено 9 февраля и было процитировано 182 раза во время периода исследования.
Эта статистика свидетельствует о том, что истории из основных СМИ оказывают существенное влияние на описательные социальные медиа, связанные со здоровьем. Официальные же учреждения здравоохранения не пытаются участвовать в таких дискуссиях напрямую. Следовательно, подобные истории в СМИ обладают большим потенциалом воздействия на широкую общественность по сравнению с прямой связью с авторитетными официальными организациями здравоохранения.
Примеры коммуникации: структура сообщений
Связь между словами в массиве данных обеспечивает дополнительное понимание структуры сообщений. Рисунок 4 представляет собой визуализацию хэштегов совместных появлений слов в ретвитах. Наиболее часто встречающиеся хэштеги показаны в виде узлов, размером пропорциональным частоте их появления. Связи между узлами отражают частоту хэштегов совместного появления в одиночных твитах. Каждый раз, когда два хэштега появляются вместе в одном твите, устанавливается соединение между ними. Более толстые соединительные линии соответствуют более частым совместным появлениям.
Рис. 4. Кластеризация на основе совместных появлений хэштегов в отдельных твитах.
Рисунок 4 показывает, как закономерности совместного появления самых популярных хэштегов могут быть сгруппированы в четыре различных повествовательных набора с помощью метода Louvain. Был использован именно этот метод, так как он не требует априорного выбора числа сообществ (кластеров), это число получается через процесс оптимизации. Следовательно, он устраняет потенциальные, связанные с восприятием, перекосы.
Как хэштеги имеют повышенную смысловую нагрузку по сравнению с другими словами в твиттере, так их совместное появление является важным индикатором настроения толпы. Соответственно, совместное появление хэштегов выявляет структуру повествования, показывая различные темы (как кластерные объединения хэштегов), которые присутствуют в массиве данных. Более подробно, кластеризация Лувен выявила четыре вида объединения слов, которые могут быть выделены среди наших данных (смотри рисунок 4). На рисунке 4, цвет узла соответствует его кластеру.
Основные результаты
Это количественное исследование дискурса Твиттера показало, как социальные медиа могут быть использованы для изучения общественного восприятия проблем, связанных со здоровьем. Анатомия тем и отношений, составляющих эту дискуссию, точно отражает основные пункты новостей общественного здравоохранения в течение дня.
В течение периода наблюдения в начале 2015 года, ссылки на корь доминировали в траффике, связанном с вакцинацией. Предварительные испытания вакцин от Эбола и выход исследования о вакцинации против ВПЧ были сопоставлены с помощью большого присутствия этих терминов в массиве данных и соответствующем vaccination narrative (рисунок 3 и таблица 2). Таким образом, наши данные свидетельствуют о том, что воспринимаемая значимость для широкой общественности новостей о проблемах со здоровьем, также справедлива и для социальных медиа. Это важное открытие для коммуникации в медицинской сфере в эпоху социальных медиа, которое становится еще более важным, если учитывать слабое положение официальных организаций здравоохранения в этой новой ситуации. Самые популярные ретвиты содержат ссылки на статьи, опубликованные в Интернете с помощью основных СМИ. Тем не менее, официальные органы общественного здравоохранения, такие как CDC, представлены крайне мало.
Полученные данные указывают на то, что распространение информации «снизу вверх» (в виде #cdcwhistleblower) намного перевешивают информацию из официальных источников, таких, как например ВОЗ. Эта закономерность свидетельствует о комплексном понятии авторитета в распространении информации в социальных медиа. В то же время, результаты подчеркивают тот факт, что правительственные учреждения должны учитывать, что основное освещение в СМИ ключевых проблем со здоровьем является более эффективным, если достигает различных онлайновых сообществ. Это подтверждается, когда учитывается тот факт, что социальный капитал является отличным товаром в социальных медиа и в этом аспекте новостные организации явно перевешивают присутствие правительственных организаций. До тех пор пока это соотношение не изменится, согласно исследованию, было бы целесообразно сочетать такие новости в СМИ с официальными сообщениями в Твиттере от государственных органов.
Анализ полученных данных показал, как сообщение можно разбить на подтемы, начиная от политики и до политики в отношении конкретных проблем со здоровьем (рисунок 4), обнажая подструктуры этого рассказа. Также анализ показал ассоциации между терминами, продемонстрировав, каким образом отдельные термины образуют более высокие описательные уровни. Детальный анализ повествования вокруг #cdcwhistleblower показывает, как определенные термины связаны с сформированием специфического кодированного языка для широкой общественности на тему вакцинации.
Проекция этого кибер-диалога на географическом пространстве (рисунок 5) показывает, что два штата с самыми высокими показателями освобождения от обязательной вакцинации при поступлении детей в школу обладают заметно более высоким уровнем участия в обсуждении в Твиттере. Это иллюстрирует пространственный характер интернет-сообществ. Проецирование траффика социальных медиа на соответствующее географическое пространство показывает, где определенные проблемы со здоровьем являются горячими темами. Эта информация может быть использована для разработки более целенаправленных информационных кампаний.
Рис. 5. Географические закономерности участия в обсуждении вакцинации в социальных медиа в Соединенных Штатах.
Хотя это исследование проводилось в контексте вопроса о вакцинации при вспышке кори начала 2015 года, методология, представленная в данной статье обобщена и может быть применена к изучению любого вопроса о здоровье, который обсуждается в социальных медиа. Но необходимо помнить, что общественные взгляды формируются в течение долгого времени, в ответ на произошедшие события или в результате продолжающегося общественного обсуждения. Результаты этого анализа распространяются на определенный период времени, продольное исследование повествования с течением времени будет способствовать лучшему понимаю многочисленных социальных аспектов.
Ограничения
Можно утверждать, что двумя ключевыми ограничениями, связанными с анализом социальных медиа, являются: 1) насколько демографические показатели социальных медиа отражают все сообщества и 2) вопросы конфиденциальности такого анализа.
Недавние исследования указывают на то, что в целом примерно три из четырех пользователей Интернета в США активно участвуют в социальных медиа, при этом есть определенный возраст смещения. Более активное участие принимает возрастная группа 18-49 (в среднем на 85%) по сравнению с 50-64 (65%) и 65+ (49%) возрастными группами. Соответственно, в контексте информатизации здоровья, при анализе данных о некоторых заболеваниях, которые имеют сильный демографический профиль, имеет смысл ввести определенное смещение. Но в данном исследовании, принимая во внимание, что это региональный анализ, ориентированный на США, и что нет никаких конкретных демографических данных, связанных с обсуждением вакцинации, корректировка возрастных групп будет иметь небольшое значение. Если мы предположим, что участники этой дискуссии, скорее всего, родители детей возраста вакцинации и родителей детей, которые подвергаются риску заражения в очаге кори, большинство их, скорее всего, попадает в возрастную группу 18-49, что соответствует самому высокому уровню участия в социальных медиа. Последующие исследования демографических профилей лиц, которые участвуют в этой дискуссии в реальном мире было бы полезно для дальнейших исследований.
Кибер-физические дебаты являются связующим звеном, которое соединяет кибер повествование в социальных медиа с соответствующим географическим пространством, позволяет изучать взгляды общественности и ответы на вопросы, связанные со здоровьем и, таким образом, предлагает новый путь для изучения нарративов здоровья. В связи с появлением этих новых механизмов, коммуникации в области здравоохранения и информатики здравоохранения должны адаптироваться к новым возможностям и вызовам. Понимание механизмов и закономерностей общения в этих средах приобретает все большее значение. Для этой цели в исследовании продемонстрированы новые подходы для анализа данных. Эти подходы по своей сути - междисциплинарны, объединяют принципы и практику медицинской информатики, анализа данных и географического анализа.
Полную версию статьи можно найти здесь.
© Конькова Татьяна