Salle de rédaction
Le Guide des décideur ...
Rapport économique
Future Press
Extreme Study Tour
L’hyperlocal
Groupes d’utilisateurs
Rapport sur la drupa 2008
La Russie : une oppor ...
Une production é ...
Workflow mobile
Journalisme citoyen
Ressources humaines
Formats de journaux
Design
Qualité
Simple pour les annon ...
GRC
Nouveaux marchés
Radio-identification
Élaboration de scénarios
Web 2.0
Impression numérique
Réorganisation de la ...
Nouveaux médias
Workflow
L’Inde en ébullition
Salles d'éxpédition
Image de marque
Automatisation
Agences de presse
Encre & papier
Ifra - Where publishing lives
Envoyer cet article par e-mail Imprimer cet article Augmenter la taille de la police Diminuer la taille de la police

Mikhail Shubin, Terem, on semantic search

Mikhail Shubin

Available in Russian only.

IFRA-ГИПП: Что такое семантический поиск и для чего он нужен?

Михаил Шубин: Сейчас в 80% случаев редакционные архивы – это набор дисков, которые хранят полосы в цифровой форме. То есть, они в цифре, но пользы от этого никакой, потому что найти что-то невозможно. Вся вновь входящая информация обычно сортируется вручную: либо по папкам, либо путем сохранения в разных местах редакционной системы, что очень неудобно для поиска.

Как решает эту проблему технология семантического поиска, семантического анализа? Берем текстовой материал и прогоняем его через некий программный анализатор, который выбирает фамилии ключевых фигур, которые появляются в тексте, города, страны, названия. Это становится некоторыми ключевыми описаниями текста. Помимо этого программа анализирует текст на основе встроенной базы знаний и в результате он приобретает описание в координатах этой базы. Условно координаты базы знаний можно представить в виде дерева, например «Общество» - «Спорт» - «Футбол» - «Чемпионат мира». После анализа текст автоматически получает описание, к какой области знания он относится. К примеру, в тексте встречается упоминание Путина и каких-то программ правительства в поддержку спорта. Т.е., текст имеет описание как в «спортивной» ветке нашей базы знаний, так и в «политике». Это описание автоматически прикрепляется к нему как некие мета данные. И в дальнейшем мы можем искать информацию уже по этим описаниям. Такой механизм обработки текстов и называется семантический анализ.

В семантическом анализе большое значение имеет морфологический анализ. Должен существовать механизм учета морфологических особенностей русского языка. Для поиска по текстам на русском языке должны учитываться, например, падежи. Ведь «Путина», «Путиным», «Путину» - это разные слова, но одна фамилия и один «адрес» в базе знаний.

Семантический поиск - удобный инструмент для редакций, позволяющий в разы сократить время на поиск информации. Сейчас, когда количество входящих данных возрастает по экспоненте – без него все труднее обходиться.

IГ: А какие еще могут быть применения?

М.Шубин: Ограничитель – только ваша фантазия.

Если вы обладаете возможностью предоставить такой поиск, кто мешает сделать какой-нибудь Интернет-магазин тех же фотографий? Какой Интернет-магазин выберет пользователь? Тот, который требует нажатия как можно меньшего количества кнопок. Соответственно, если вы упрощаете пользователю поиск, то привлекаете его к вашему контенту и убеждаете покупать.

Семантический поиск интересен и для создания разных социальных сетей. Так социальная сеть может стать читательской аудиторией - издатель формирует ее на основе какой-то базы знаний, работает с ней, расширяет и использует для продвижения издания. При этом четко знает, для кого и что он делает.

Большой рынок – крупные холдинги, где обращается большое количество документов. Можно придумать некую базу знаний, некое пространство, в котором разместятся внутренние документы, после чего разом «выдергивать» целые цепочки бумаг, фото, мультимедиа-контента, имеющих отношение к конкретному проекту или событию.

IГ: Подскажите алгоритм действий медиапредприятию, задумавшему обзавестись системой семантического поиска

М. Шубин: Сначала редакции нужно определить, что именно интересно для индексации. Для кого-то очень важна индексация собственного архива и накопленных данных, которые можно переработать и получить на основе старого контента новый, то есть товар, на котором можно заработать. Для кого-то актуальнее индексировать новости. Тогда нужно четко понять источники этих новостей и направленность. Далее следует оценить структуру необходимой базы знаний: например, будет ли больше выделена политическая активность или, скажем, мода. Индексация пойдет по тем векторам, которые представляют интерес. Следующий шаг – это уже искать какое-то конкретное решение. Определиться с деньгами, временем на внедрение, изучить предложения на рынке.

«Терем» работает с вендорами, которые предлагают системы хранения и поиска информации - это Digital Collection и ATEX. Digital Сollection – система архивирования и поиска по архивам, которая используется большинством ведущих производителей редакционных систем во всем мире. АТЕХ – один из крупнейших мировых поставщиков мультимедийных редакционно-издательских систем.

IГ: ПО для семантического анализа – это модуль для мультимедийных редакционных систем. А можно ли его «приспособить» к действующим?

М.Шубин: Софт он потому и называется софт, т.е. мягкий, что там все что угодно можно «приспособить» к чему угодно. Весь вопрос в том, насколько это будет масштабируемо, трудоемко, длительно и дорого, насколько выдержит нагрузки. Я бы не брался приспосабливать изначально «не приспособленные» друг для друга продукты.

Беседовал Алексей Панкин

Page first published: 04.02.2008

Try IFRA Magazine ePaper today!IFRA Directories 2009