Systems
Decision-makers' guid ...
Business Report 2008
Future Press
Extreme Study Tour
Hyper Local
User groups
drupa 2008 report
Russia
Publishing Green
Mobile workflows
Citizen journalism
Human resources
Newspaper formats
Newspaper design
Quality
Simply advertising
CRM
New markets
RFID in newspapers
Scenarios
Web 2.0
Digital printing
Newsroom reorganisation
New Media
Workflow
India Hotbed
Mailroom
Branding
Automation
Wire services
Ink on paper
Ifra - Where publishing lives
Послать статью по почте Распечатать статью Увеличить шрифт Уменьшить шрифт

Семантический поиск

М.Шубин – руководитель направления автоматизации СМИ, «Терем»

IFRA-ГИПП: Что такое семантический поиск и для чего он нужен?

Михаил Шубин: Сейчас в 80% случаев редакционные архивы – это набор дисков, которые хранят полосы в цифровой форме. То есть, они в цифре, но пользы от этого никакой, потому что найти что-то невозможно. Вся вновь входящая информация обычно сортируется вручную: либо по папкам, либо путем сохранения в разных местах редакционной системы, что очень неудобно для поиска.

Как решает эту проблему технология семантического поиска, семантического анализа? Берем текстовой материал и прогоняем его через некий программный анализатор, который выбирает фамилии ключевых фигур, которые появляются в тексте, города, страны, названия. Это становится некоторыми ключевыми описаниями текста. Помимо этого программа анализирует текст на основе встроенной базы знаний и в результате он приобретает описание в координатах этой базы. Условно координаты базы знаний можно представить в виде дерева, например «Общество» - «Спорт» - «Футбол» - «Чемпионат мира». После анализа текст автоматически получает описание, к какой области знания он относится. К примеру, в тексте встречается упоминание Путина и каких-то программ правительства в поддержку спорта. Т.е., текст имеет описание как в «спортивной» ветке нашей базы знаний, так и в «политике». Это описание автоматически прикрепляется к нему как некие мета данные. И в дальнейшем мы можем искать информацию уже по этим описаниям. Такой механизм обработки текстов и называется семантический анализ.

В семантическом анализе большое значение имеет морфологический анализ. Должен существовать механизм учета морфологических особенностей русского языка. Для поиска по текстам на русском языке должны учитываться, например, падежи. Ведь «Путина», «Путиным», «Путину» - это разные слова, но одна фамилия и один «адрес» в базе знаний.

Семантический поиск - удобный инструмент для редакций, позволяющий в разы сократить время на поиск информации. Сейчас, когда количество входящих данных возрастает по экспоненте – без него все труднее обходиться.

IГ: А какие еще могут быть применения?

М.Шубин: Ограничитель – только ваша фантазия.

Если вы обладаете возможностью предоставить такой поиск, кто мешает сделать какой-нибудь Интернет-магазин тех же фотографий? Какой Интернет-магазин выберет пользователь? Тот, который требует нажатия как можно меньшего количества кнопок. Соответственно, если вы упрощаете пользователю поиск, то привлекаете его к вашему контенту и убеждаете покупать.

Семантический поиск интересен и для создания разных социальных сетей. Так социальная сеть может стать читательской аудиторией - издатель формирует ее на основе какой-то базы знаний, работает с ней, расширяет и использует для продвижения издания. При этом четко знает, для кого и что он делает.

Большой рынок – крупные холдинги, где обращается большое количество документов. Можно придумать некую базу знаний, некое пространство, в котором разместятся внутренние документы, после чего разом «выдергивать» целые цепочки бумаг, фото, мультимедиа-контента, имеющих отношение к конкретному проекту или событию.

IГ: Подскажите алгоритм действий медиапредприятию, задумавшему обзавестись системой семантического поиска

М. Шубин: Сначала редакции нужно определить, что именно интересно для индексации. Для кого-то очень важна индексация собственного архива и накопленных данных, которые можно переработать и получить на основе старого контента новый, то есть товар, на котором можно заработать. Для кого-то актуальнее индексировать новости. Тогда нужно четко понять источники этих новостей и направленность. Далее следует оценить структуру необходимой базы знаний: например, будет ли больше выделена политическая активность или, скажем, мода. Индексация пойдет по тем векторам, которые представляют интерес. Следующий шаг – это уже искать какое-то конкретное решение. Определиться с деньгами, временем на внедрение, изучить предложения на рынке.

«Терем» работает с вендорами, которые предлагают системы хранения и поиска информации - это Digital Collection и ATEX. Digital Сollection – система архивирования и поиска по архивам, которая используется большинством ведущих производителей редакционных систем во всем мире. АТЕХ – один из крупнейших мировых поставщиков мультимедийных редакционно-издательских систем.

IГ: ПО для семантического анализа – это модуль для мультимедийных редакционных систем. А можно ли его «приспособить» к действующим?

М.Шубин: Софт он потому и называется софт, т.е. мягкий, что там все что угодно можно «приспособить» к чему угодно. Весь вопрос в том, насколько это будет масштабируемо, трудоемко, длительно и дорого, насколько выдержит нагрузки. Я бы не брался приспосабливать изначально «не приспособленные» друг для друга продукты.

Беседовал Алексей Панкин

Page first published: 04.02.2008

Try IFRA Magazine ePaper today!IFRA Directories 2009