Взгляд на мир глазами Википедии

Что можно сделать за день при помощи новой SGI® UV™ 2000 – крупнейшей в мире системы добычи данных, размещенных в основной памяти?

Взгляд на мир глазами Википедии

International Supercomputing Conference 2012

Гамбург (Германия) – 18 июня - BUSINESS WIRE – Признанные лидер в области технических вычислений компания SGI (NASDAQ:SGI) в партнерстве с Калевом Х. Леетару (Kalev H. Leetaru) из Университета Иллинойса создала первую в истории систему хронологического картографирования и поиска полнотекстовых контентов в англоязычной версии Википедии во времени и пространстве. Результатами являются визуальные отображения современной истории, получаемые менее чем за день благодаря использованию методов добычи данных, размещенных в основной памяти (in-memory data-mining). Загрузив всю англоязычную Википедию в SGI® UV™ 2000, Леетару смог показать, как с точки зрения Википедии развивался мир на протяжении последних двух столетий. Место, год и положительное или отрицательное отношение привязывалисть к тем или иным упоминаниям.

Картографирование статей Википедии уже проводилось в рамках предыдущих проектов, когда автор вручную задавал локационные метаданные, но на эти прошлые попытки приходится лишь крохотная доля локационной информации Википедии. Данный проект раскрыл содержание самих статей, распознавая каждое место и дату на всех четырех миллионах страниц и связи между ними для создания грандиозной сети.

Википедия в совершенно новом ракурсе

"Такой анализ позволяет миру дистанцироваться от отдельных статей и текста, чтобы увидеть общую картину громадного знания, накопленного в Википедии, не ограничиваясь постраничным просмотром. Теперь мы можем видеть, как эволюционировало одно из крупнейших собраний человеческого знания, и то, что мы не могли видеть никогда раньше, например, глобальное настроение в определенное время и в определенном месте или наличие пробелов в представленном знании", - сказал Франц Аман (Franz Aman), директор по маркетингу и главный стратег SGI. – "Нам нравится пользоваться Google Earth из-за возможности уменьшать масштаб и видеть общую картину. С SGI UV 2 мы можем использовать ту же концепцию применительно к "Большим данным" (Big Data), чтобы получать общую картину наших Больших данных".

На базе такого анализа можно выделить четыре периода роста Википедии в плане исторического охвата: 1001-1500 (Средние века), 1501-1729 (Новое время), 1730-2003 (Эпоха просвещения), 2004-2011 (Эра Википедии), и продолжение этого роста, по-видимому, сфокусировано на улучшении описания исторических событий, а не на усиленном документировании настоящего. Средняя тональность в описании Википедией каждого года тесно соотносится с крупными глобальными событиями. При этом наиболее негативный период за последние 1.000 лет приходится на Гражданскую войну в Америке, за которой идет Вторая мировая война. Анализ также показывает, что обусловленный копирайтом пробел, выражающийся в отсутствии большей части двадцатого века в оцифрованных печатных собраниях, не является проблемой для Википедии, где наблюдается устойчивый поступательный рост в освещении этого периода, начиная с 1924 года до сегодняшних дней.

Исследователи могут добывать Большие данные со скоростью Больших данных

"Односторонность связей в Википедии, отсутствие ссылок и неравномерное распределение инфобоксов – все это указывает на наличие ограничений для добычи данных из собраний типа Википедии с опорой на метаданные", - сказал Леетару. – "В случае с SGI UV 2 наличие огромной общей памяти позволило мне относить вопросы ко всему массиву данных в режиме близком к реальному времени. Имея в своем распоряжении огромный объем кэш-когерентной общей памяти, я мог просто написать несколько строк кода и пройтись по всему набору данных, задавая любые приходящие мне в голову вопросы. Это невозможно при использовании метода горизонтального масштабирования. Это все равно что использовать текстовый процессор вместо пишущей машинки: я могу вести свои изыскания совершенно иным способом, концентрируясь на результатах, а не на алгоритмах".

Аналитический подход

Этот огромный массив данных, загруженный в суперкомпьютер SGI® UV™ 2000, подвергся геокодированию и кодированию дат с охватом всех текстов. При этом использовались алгоритмы для выявления всех упоминаний каждого места и каждой даты в тексте каждой статьи Википедии. Было экстрагировано свыше 80 млн. мест и 42 млн. дат за период с 1000 года нашей эры до 2012 года. В среднем это 19 мест и 11 дат на статью (каждые 44 слова и каждые 75 слов соответственно). Связи между каждой датой и каждым местом были зафиксированы в громадной сети, представляющей взгляд Википедии на историю. С таким инструментарием Леетару смог провести в масштабе времени, близком к реальному, анализ всего массива данных на SGI UV 2, чтобы создать визуальные карты во времени и пространстве и увидеть не только то, как разворачивалась история, но и изменение общего настроя мира на протяжении последнего тысячелетия. Он также смог провести интерактивное тестирование широкого спектра теорий и стоящих перед исследователями вопросов, и все это заняло менее одного дня.

Новый SGI UV: компьютер большого ума

Семейство продуктов SGI UV 2 позволяет пользователям находить ответы на самые сложные в мире проблемы при помощи системы, которой столь же проста в администрировании, как и рабочая станция. SGI UV 2, работающий на процессорах семейства Intel® Xeon® E5 со стандартной версией Linux и поддерживающий широкий спектр опций хранения, представляет собой полное, соответствующее отраслевым стандартам решение для ничем не лимитированных вычислений.

Имея всего 16 ядер и 32 гигабайта памяти, SGI UV 2 может начинать с малого и беспроблемно расширяться. Эта платформа нового поколения удваивает количество ядер (до 4096 ядер) и учетверяет объем когерентной основной памяти (до 64 терабайт) по сравнению с предыдущим поколением, используемым для вычислений in-memory в системе с единым представлением вычислений. SGI UV 2 может быть масштабирован до восьми петабайт общей памяти и на пиковой скорости ввода-вывода в четыре терабайта в секунду (14 PB/час) способен менее чем за три секунды вобрать в себя все содержимое собрания печатных изданий Библиотеки Конгресса США.

SGI UV 2000 уже есть в продаже. Заказ на SGI UV 20 можно оформить сегодня, поставки начнутся в августе 2012 года. Цены начинаются от $30.000.

SGI

Признанный лидер в области технических вычислений компания SGI стремится помогать своим клиентам в решении самых сложных задач в сферах бизнеса и технологий.

Войдите в контакт с SGI через Twitter (@sgi_corp), Facebook (facebook.com/sgiglobal), YouTube (youtube.com/sgicorp) и LinkedIn.

Фото и видео: http://www.sgi.com/go/wikipedia

© 2012 Silicon Graphics International Corporation. SGI и логотип SGI являются товарными знаками или зарегистрированными товарными знаками Silicon Graphics International Corp. или ее дочерних компаний в США и/или других странах. Intel и Xeon являются зарегистрированными товарными знаками Intel Corporation. Все остальные коммерческие обозначения и товарные знаки являются собственностью соответствующих владельцев.

Изображения любезно предоставлены Калевом Леетару.

Галерея фото и мультимедиа: http://www.businesswire.com/cgi-bin/mmg.cgi?eid=50313303&lang=en

С оригиналом данного пресс-релиза можно ознакомиться по адресу: http://www.businesswire.com/news/home/20120618005389/en

Контактная информация:

Ogilvy Public Relations

Meghan Fintland, 415-677-2704

SGImedia@ogilvy.com

Оригинальный текст данного сообщения на языке источника является официальной, аутентичной версией. Перевод предоставляется исключительно для удобства и должен рассматриваться в привязке к тексту на языке источника, который является единственной версией, имеющей правовое значение.

ПРЕСС-РЕЛИЗ. Материал публикуется на коммерческих условиях.
Интерфакс не несет ответственности за содержание материала.
Размещение пресс-релизов
ЗАЯВКА НА РАЗМЕЩЕНИЕ ПРЕСС-РЕЛИЗОВ Если вы хотите опубликовать ваш пресс-релиз на нашем сайте, заполните пожалуйста эту форму.
Наши сотрудники свяжутся с вами.
Captcha не менее 10 символов

Пресс-релизы

Новости в разделах
В миреLe Monde сообщила о переговорах Парижа и Лондона об отправке военных на УкраинуLe Monde сообщила о переговорах Парижа и Лондона об отправке военных на УкраинуВсе новости
ЭкономикаРыбопромышленники назвали вылов лососей в 2024 году худшим с 2005 годаРыбопромышленники назвали вылов лососей в 2024 году худшим с 2005 годаНизкий улов совпал со скачком издержек бизнеса, оптовые цены на икру составляют уже 7-8 тысяч рублей за кгВсе новости
В РоссииКлиенты ТБанка испытывают сложности с платежами и переводами из-за сбояКлиенты ТБанка испытывают сложности с платежами и переводами из-за сбояВсе новости
СпортВасилий Березуцкий возглавил азербайджанский ФК "Сабах"Василий Березуцкий возглавил азербайджанский ФК "Сабах"Все новости
КультураВ кассах Большого театра не будут продавать билеты на "Щелкунчика"В кассах Большого театра не будут продавать билеты на "Щелкунчика"Билеты будут доступны только на сайте ГАБТ, часть из них можно будет приобрести на аукционеВсе новости

Фотогалереи