Mikhail Shubin, Terem, on semantic search
Mikhail Shubin
Available in Russian only.
IFRA-ГИПП: Что такое семантический поиск и для чего он нужен?
Михаил Шубин: Сейчас в 80% случаев редакционные архивы – это набор дисков, которые хранят полосы в цифровой форме. То есть, они в цифре, но пользы от этого никакой, потому что найти что-то невозможно. Вся вновь входящая информация обычно сортируется вручную: либо по папкам, либо путем сохранения в разных местах редакционной системы, что очень неудобно для поиска.
Как решает эту проблему технология семантического поиска, семантического анализа? Берем текстовой материал и прогоняем его через некий программный анализатор, который выбирает фамилии ключевых фигур, которые появляются в тексте, города, страны, названия. Это становится некоторыми ключевыми описаниями текста. Помимо этого программа анализирует текст на основе встроенной базы знаний и в результате он приобретает описание в координатах этой базы. Условно координаты базы знаний можно представить в виде дерева, например «Общество» - «Спорт» - «Футбол» - «Чемпионат мира». После анализа текст автоматически получает описание, к какой области знания он относится. К примеру, в тексте встречается упоминание Путина и каких-то программ правительства в поддержку спорта. Т.е., текст имеет описание как в «спортивной» ветке нашей базы знаний, так и в «политике». Это описание автоматически прикрепляется к нему как некие мета данные. И в дальнейшем мы можем искать информацию уже по этим описаниям. Такой механизм обработки текстов и называется семантический анализ.
В семантическом анализе большое значение имеет морфологический анализ. Должен существовать механизм учета морфологических особенностей русского языка. Для поиска по текстам на русском языке должны учитываться, например, падежи. Ведь «Путина», «Путиным», «Путину» - это разные слова, но одна фамилия и один «адрес» в базе знаний.
Семантический поиск - удобный инструмент для редакций, позволяющий в разы сократить время на поиск информации. Сейчас, когда количество входящих данных возрастает по экспоненте – без него все труднее обходиться.
IГ: А какие еще могут быть применения?
М.Шубин: Ограничитель – только ваша фантазия.
Если вы обладаете возможностью предоставить такой поиск, кто мешает сделать какой-нибудь Интернет-магазин тех же фотографий? Какой Интернет-магазин выберет пользователь? Тот, который требует нажатия как можно меньшего количества кнопок. Соответственно, если вы упрощаете пользователю поиск, то привлекаете его к вашему контенту и убеждаете покупать.
Семантический поиск интересен и для создания разных социальных сетей. Так социальная сеть может стать читательской аудиторией - издатель формирует ее на основе какой-то базы знаний, работает с ней, расширяет и использует для продвижения издания. При этом четко знает, для кого и что он делает.
Большой рынок – крупные холдинги, где обращается большое количество документов. Можно придумать некую базу знаний, некое пространство, в котором разместятся внутренние документы, после чего разом «выдергивать» целые цепочки бумаг, фото, мультимедиа-контента, имеющих отношение к конкретному проекту или событию.
IГ: Подскажите алгоритм действий медиапредприятию, задумавшему обзавестись системой семантического поиска
М. Шубин: Сначала редакции нужно определить, что именно интересно для индексации. Для кого-то очень важна индексация собственного архива и накопленных данных, которые можно переработать и получить на основе старого контента новый, то есть товар, на котором можно заработать. Для кого-то актуальнее индексировать новости. Тогда нужно четко понять источники этих новостей и направленность. Далее следует оценить структуру необходимой базы знаний: например, будет ли больше выделена политическая активность или, скажем, мода. Индексация пойдет по тем векторам, которые представляют интерес. Следующий шаг – это уже искать какое-то конкретное решение. Определиться с деньгами, временем на внедрение, изучить предложения на рынке.
«Терем» работает с вендорами, которые предлагают системы хранения и поиска информации - это Digital Collection и ATEX. Digital Сollection – система архивирования и поиска по архивам, которая используется большинством ведущих производителей редакционных систем во всем мире. АТЕХ – один из крупнейших мировых поставщиков мультимедийных редакционно-издательских систем.
IГ: ПО для семантического анализа – это модуль для мультимедийных редакционных систем. А можно ли его «приспособить» к действующим?
М.Шубин: Софт он потому и называется софт, т.е. мягкий, что там все что угодно можно «приспособить» к чему угодно. Весь вопрос в том, насколько это будет масштабируемо, трудоемко, длительно и дорого, насколько выдержит нагрузки. Я бы не брался приспосабливать изначально «не приспособленные» друг для друга продукты.
Беседовал Алексей Панкин
Page first published: 04.02.2008


