Изучение пространства и места является предметом многочисленных дисциплин, начиная географией и заканчивая социологией и психологией. Тем не менее, само понятие места остается достаточно размытым, поскольку оно является результатом когнитивных процессов, которые до сих пор было трудно наблюдать. Классическое определение места было дано в 1977г. И-Фу Туан. В контексте данной статьи понятие места будет рассматриваться как ощущение местоположения, как оно относится к социокультурным взглядам и личному опыту. Соответственно, места формируются за счет повторения опыта и деятельности (отдельных лиц или групп) в определенном местоположении, что преобразует это местоположение из геометрической концепции (ее трехмерной формы) в эмпирическую конструкцию (перемещение личного и /или общественного восприятия). При этом используются определяющие характеристики мест: являются ли они, например, финансовыми районами, горячей точкой или артистическими окрестностями города.
Понятие места постоянно развивается, так как с течением времени его наделяли новым смыслом, отражающим, например, городскую динамику, развитие социально-культурных представлений. Хотя получение жесткой геометрической формы мест, полученных из социальных или коллективных смыслов, зачастую проблематично из-за расплывчатости и неопределенных границ, существуют способы достижения этой цели: представления, основанные на понятии места предлагают новые идеи.
Появление огромного количества геопривязанного контента заставляет обратить внимание на пространственные гуманитарные науки или изучение человеческой деятельности как самой по себе, так и по отношению к пространству и месту. Теперь у нас есть доступ к непрерывному потоку контента, в виде твитов с геотегами и записей в блоге или Flickr и Instagram изображений. В данной статье рассматриваются два различных источника: содержание Википедии и содержание отдельных твитов. Хотя оба они являются выражением взглядов общественности, они существенно различаются по своему назначению. Википедия фиксирует пространственные знания в виде географических записей, содержание которых является итогом общего соглашения по основным характеристикам местоположения. Следовательно, ее содержание можно рассматривать как выражение коллективного восприятия таких мест. Отдельные твиты с геотегами просто выражают интересы индивидов или их наблюдения, в то время как они там находятся. Целью проводимого исследования является вопрос, как извлечь контент, связанный с местоположением, из данных краудсорсинга, фиксируя социокультурные характеристики места. Для достижения этой цели представлен подход, который использует вероятностное моделирование, семантические связи и пространственную кластеризацию.
Материалы и методы
Были собраны статьи Википедии и статистика семантического доступа для различных местоположений, а также твиты, происходящие из этих местоположений. Таким образом были выявлены актуальные термины в пользовательском контенте, они были промаркированы. Был проведен анализ уровня тематической согласованности между этими двумя различными источниками. В данной статье представлены результаты для четырех крупных городов: Нью-Йорк (NYC), Лос-Анджелес (LA), Сингапур (SG) и Лондон (LDN). Для демонстрации возможности исследования в более мелком географическом масштабе в работе представлены результаты трех областей в Нью-Йорке (Нижний Манхэттен, Центральный парк и Театральный район). В данной статье также используется термин окрестности для обозначения областей такого уровня к югу от города.
Что касается социально-культурных категорий высокого уровня, характеризующих место, были выбраны политика, бизнес, образование, отдых, спорт и развлечения. Были выбраны именно эти категории, так как они были доминирующими как в Википедии, так и в Твиттере. Каждая из перечисленных выше категорий высокого уровня является явной категорией в Википедии и появляется более чем в 50 000 статей.
Общий подход представлен на рис. 1, на котором кратко описана обработка данных Твиттера. Сначала были собраны геотеги твитов из нужных областей исследования с использованием потокового интерфейса программирования приложений Твиттера (API), который возвращает выборку 1% всех твитов. Предыдущие исследования показали, что такие твиты с геотегами обычно отражают примерно 2% всего трафика API Твиттера. Для обоих масштабов (городского и районного), данные Твиттера собирались непрерывно в течение месяца (апрель 2014), в результате чего было получено примерно 4,5 миллиона твитов для Нью-Йорка; 4,3 миллиона для LA; 821,000 для SG и 1,3 миллиона для LDN. Твиты были пространственно отфильтрованы с использованием официальных географических границ для всех городов и районов окрестности. Затем твиты были сгруппированы в 24х часовые периоды времени по местоположению и обработаны с использованием тематического n-грам моделирования.
Рис. 1. Блок-схема, описывающая общий процесс, используемый для обнаружения местоположения.
Чтобы извлечь и категоризировать темы из массива данных была применена разновидность вероятностной тематической модели латентного размещения Дирихле (Latent Dirichlet Allocation, LDA), известная как тематическая n-грам модель. LDA является одним из методов тематического моделирования и впервые была представлена в качестве графической модели для обнаружения тематик Дэвидом Блеем. Блей и др. описали использование LDA для уменьшения размерности при выборе функции в исследуемых классификаторах, таких как опорные вектора (SVM). В сущности, актуальная модель n-грам применяется для снижения размерности твитов и статей Википедии.
Таблица 1. Общее количество твитов в категории высокого уровня, содержащих семантически связанные актуальные n-грам.
Эта таблица демонстрирует преобладание развлекательного контента в данных Twitter. Темы для обсуждения могут быть лингвистически классифицированы как принадлежащие к нескольким категориям высокого уровня с учетом стоимости их поточечной взаимной информации (Point-wise Mutual Information, PMI). PMI является мерой схожести, происходящей из теории информации и статистики, которая вычисляет вероятность двух событий, имевших место с учетом их индивидуальных и совместных распределений. Вероятность объединения рассчитывается по частоте сочетаний актуальных терминов и категорий. Каждая тема классифицировалась как относящаяся к категории высокого уровня, что соответствует самому высокому значению PMI.
Обращаясь к пространственному аспекту данных, были выявлены различия в масштабе и расстоянии, с которыми происходит пространственная кластеризация в каждом месте. Используя геотеги твитов и их значения PMI в каждой категории высокого уровня, было найдено заметное расстояние со статистически значимым Z (r> 1,96; P <0,05), а также обнаружены следующие меры: LA 701.3m, NYC 619.2m, SG 1,334.9m, LDN 731.4m. Расстояния были записаны для каждого из четырех городов и параметризованы в качестве порогового значения фиксированного расстояния в локальной Getis-Ord Gi* (подробнее почитать об этом можно здесь https://pro.arcgis.com/ru/pro-app/tool-reference/spatial-statistics/hot-spot-analysis.htm).
Getis-Ord Gi* статистика используется для обнаружения локальных пространственных кластеров с высокими семантическими значениями в границах каждого города. Итоговые z-оценки и p-значения говорят о том, в какой области пространства кластеризуются объекты с высокими или низкими значениями. Инструмент работает путем анализа каждого объекта в контексте соседних объектов. Статистика была подсчитана следующим образом: взята сумма значения PMI одного твита в сочетании с его соседями в пределах заданного расстояния, и сравнили ее с ожидаемой локальной суммой значений PMI всех твитов. Когда разница между этими двумя пропорциями значительна - отдельный твит помечается как значительный. Твит с высоким значением сходства PMI интересен, но может не быть статистически значимой горячей точкой. Статистическая значимость была определена на уровне р<0.05 и рассматриваются только Z>1.96.
Результаты
Пространственное соответствие между точками доступа Твиттера и соответствующими физическими местоположениями.
Чтобы оценить степень, в которой контент Твиттера, происходящий из различных местоположений, отражает их характеристики, было произведено сравнение пространственных кластеров тематического содержания данных Твиттера в соответствующих физических районах и их тематических характеристик, отраженных в Википедии. На рис. 2 показаны результаты кластеров высокого значения для двух категорий, развлечения (красный) и отдыха (синий) в подмножестве Манхэттен, Нью-Йорк. На рисунке показано пространственное распределение в более высоком разрешении, чтобы лучше отобразить уровень согласованности между кластерами Твиттера и соответствующими физическими местами: зеленые кластеры находятся вблизи известных районов отдыха, таких как парки и площади. Наиболее примечателен кластер пространственно совмещенный с Центральным парком. Точно так же кластеры развлечений совпадают с установленными местными центрами развлечений, такими как Таймс-Сквер, Мэдисон-Сквер-Гарден и наиболее заметный кластер находится на Бродвее, на юго-западе от Центрального парка.
Рис. 2. Статистически значимые кластеры категорий отдыха и развлечений, сосредоточенные на Манхэттене, Нью-Йорк. Условные обозначения: (1) Центральный парк, (2) Бродвей, (3) Таймс-Сквер, (4) Мэдисон Сквер Гарден, (5) High Line Park, (6) Battery Park, и (7) Brooklyn Bridge Park.
После обобщения этих кластеров было получено более четкое представление тематического выравнивания. Эти кластеры визуализируются на рис. 3, на котором видно, что рекреационные кластеры контента Твиттера накладываются друг на друга не только с Центральным парком, но и с множеством парков по всему городу, в том числе Battery Park, Brooklyn Bridge Park, High Line Park и т.д. Это подтверждает аргумент, что такой масштаб анализа контента Твиттера отражает характеристики местности. Круговая диаграмма на этом рисунке показывает относительную часть контента Твиттера, которая считается отдыхом в массиве данных для этой области (а именно 13,7%, второй доминирующей развлекательной категории). Как видно на рисунке 3, также были получены несколько ложных срабатываний (пятна, которые не совпадают с парками на этом рисунке). Это происходит по двум причинам. Во-первых, есть некоторая нечеткость в использовании терминов, которые могут иметь несколько значений в различных контекстах, но в данной кластеризации используются в их основном значении. Например, часто встречается термин «чтение» в твитах, созданных в непосредственной близости от аэропортов, что послужило созданию локальных образовательных горячих точек (этот термин в первую очередь считается показателем образовательной деятельности), хотя в этом конкретном случае термин просто используется пассажирами, читающими книги или периодику в ожидании самолета. Во-вторых, данные социальных медиа могут часто указывают на необходимость поддержки, а не на определенный вид деятельности. Небольшой местный квадрат, например, может быть служить в качестве неофициального места отдыха, хотя формально он не может быть признан таковым.
Рис. 3. Пространственно значимые кластеры отдыха в Нью-Йорке.
На рисунке 4 представлены карты, содержащие статистически значимые кластеры каждой категории. Здесь были кратко освещены некоторые конкретные физические особенности каждой области, которые имеют общую допустимую или совместную деятельность. В Сингапуре спортивные кластеры были обнаружены в западной части города, недалеко Jurong West Stadium и Golazo Futsal. Дополнительное выравнивание наблюдалось в центральной части города, недалеко от стадиона Clementi, а также на севере вблизи стадиона Yishun. Большинство кластеров образования были найдены вблизи известных школ и университетов, таких как United World College of South East Asia, Nanyang Polytechnic и Temasek Polytechnic. Бизнес кластеры были обнаружены в районе Yishun - в центральном деловом районе. Дополнительные скопления наблюдаются в южной части города, недалеко от места Orchard Road, которое является популярным торговым районом, согласно Википедии, и привлекает множество туристов.
Рис. 4. На карту нанесены значимые горячие точки для каждой из категорий высокого уровня для (A) Сингапура, (B) Лондона, (C) Лос-Анджелеса и (D) Нью-Йорка.
Для Лондона были обнаружены пересекающиеся тематические кластеры бизнеса, политики и развлечений, сконцентрированные в Уэст-Энде, где находятся многочисленные правительственные здания, предприятия и театры. Были обнаружены спортивные кластеры вблизи олимпийских стадионов, а также недалеко от ресторанов и спортивных баров. Для кластера отдыха результаты показали сильное пространственное выравнивание с парками, в частности, с крупнейшим в Лондоне, Ричмонд Парком. В Лос-Анджелесе бизнес кластеры наблюдались вблизи торговых центров и ресторанов. Тем не менее, не был найден значительный деловой кластер в финансовом районе Лос-Анджелеса. Сравнивая полученные результаты с географическими данными от правительства города, кластеризация в категории образования наблюдалась вблизи таких мест, как например, Университет Южной Калифорнии, Университет штата Калифорния в Лос-Анджелесе и Калифорнийский лютеранский университет.
Тематическая согласованность между Твиттером и Википедией на уровне соседства.
Выше было описано пространственное выравнивание тематических кластеров в Твиттере с соответствующими объектами и окрестностями, чтобы показать, что тематические горячие точки, как правило, совпадают с соответствующими физическими местоположениями и их характеристиками. Теперь оценим тематическое согласование между содержанием отдельных твитов, не имеющих куратора, и содержанием контента Википедии, выражающим мнение большинства и обработанным куратором. В этом смысле, каждый район можно рассматривать как имеющий социокультурную подпись, выражающую его особый характер. Цель состояла в том, чтобы сравнить подписи, появляющиеся в траффике Твиттера, и соответствующее содержание, собранное из Википедии. Это было сделано путем изучения процентного соотношения использования различных тематических категорий для описания различных районов в Википедии и сравнения их с соответствующими процентами трафика Твиттера, происходящего из этих местоположений. Для большей объективности в первую очередь результаты представлены на уровне окрестности, а затем агрегированы до уровня города.
Чтобы выделить темы, касающиеся местности, по мере их появления на уровне анализа окрестностей на рис. 5 представлены результаты для театрального района Нью-Йорк Сити, Центрального парка и финансового района нижнего Манхэттена. Каждая фигура представляет собой композиционный вид пропорций тем из Твиттера и Википедии и семантическую страницу, доступную по названию. Внешняя часть диаграммы на каждом графике представляет темы Википедии, средняя показывает темы Твиттера, а внутренняя отображает доступ к страницам Википедии. На рисунке была суммирована степень, с которой различные темы выражают особый характер каждой окрестности.
Рис. 5. Процентное соотношение для каждой категории в окрестностях Нью-Йорка. Условные обозначения местоположений: TSD - театральный район; CP – Центральный парк; LM – район нижнего Манхэтенна. Условные обозначения источника данных: Wiki – темы статей Википеди; Twitter – пространственные темы Твиттера; WikiViews – семантические запросы Википедии
Тематическая согласованность между Твиттером и Википедией на уровне города
Был проведен такой же анализ на уровне города, все результаты были агрегированы в черте города в Нью-Йорке, Лос-Анджелесе, Сингапуре и Лондоне. Сфокусировавшись на Твиттере (процентные данные на рис 6), результаты показывают аналогичное пропорциональное распределение по четырем городам с общим средним сходством 69%. По сравнению с анализом Твиттера в масштабе окрестности, этот результат указывает на потерю уникальности местоположения. Это еще раз свидетельствует о том, что агрегирование контента в социальных медиа на городском уровне анализа имеет сглаживающий эффект на тематическое содержание, убирая характеристики местности, которые можно наблюдать на уровне окрестности. Кроме того, можно отметить, что на этом уровне анализа мы наблюдаем Твиттер в целом.
Рис. 6. Процентное соотношение для каждой категории по городам
Результаты показывают, как смысл места может быть собран путем анализа содержания твитов, генерируемых в виде геотегов. В данной работе это было сделано с помощью объединения вероятностного моделирования тем, семантической связи и пространственной кластеризации для определения коллективного восприятия места. Этот подход также решает проблему "шума" в Твиттере, в результате чего, люди могут находиться в месте физически, но не обязательно принимать участие или вносить свой вклад в общий смысл места. Сопоставляя такие места с соответствующими записями Википедии и семантическим доступом впервые было показано тематическое и пространственное выравнивание между этими двумя источниками. Подтверждая таким образом, что такое содержание может быть проанализировано.
Полную версию статьи можно найти здесь.
© Конькова Татьяна