Yet Another Conference 2010: Автоматический сбор данных по примерам

Сегодня, 1 октября 2010 года, компания Яндекс впервые проводит конференцию Yet Another Conference 2010, посвященную различным вопросам разработки ПО для Интернет, построению мощных и отказоустойчивых вычислительных комплексов и т.д.

Конференция в первую очередь интересна разработчикам ПО и системным инженерам.

Мне удалось побывать на нескольких докладах, излагаю свои заметки по единственному докладу в секции web mining – рассказу Сергея Нурка.

Сергей Нурк поведал слушателям о механизме извлечения структурированных данных из документов, разработанному в Яндекс – SinglePage.

Этот подход может использоваться для решения самых разных прикладных задач.

Данный алгоритм и его реализация используется в Яндекс, в частности, для извлечения адресов организаций из многих миллионов документов, опубликованных в сети.

Задача.

Структурированный формат представления данных – это пары типа “атрибут-значение”, описывающие какой-либо объект.

Данные в таблицах БД, которые можно извлекать посредством SQL – данные, представленные в структурированном формате (структура – таблица).

Документы в Интернет содержат информацию в неструктурированном виде – в виде текста.

Извлечение данных из текста сводится к поиску релевантных документов – как это работает в современных поисковых машинах.

Поэтому хорошо бы иметь все данные в документах в структурированном виде, облегчающем их обработку и поиск прямого ответа на поставленный вопрос, а не набора документов.

Решение.

Принцип работы алгоритма SinglePage заключается в следующем:

1) Берем веб-сайт с более-менее единообразной структурой

2) Пользователь задает примеры – пары “атрибут-значение”, которые описывают какой-то объект на 1-3 страницах сайта;

3)  SinglePage обучается на примерах, и извлекает данные со всех страниц сайта

Извлечение данных основано на построении шаблона, по которому ищется пара “атрибут-значение”.

Шаблон – TreePattern, представляет собой правило, основанное на статистике расположения элементов HTML на странице:

Если в элементе Li стоит p со значением “size”, то после него в элементе p идет значение атрибута size.

И т.д.

По найденным шаблонам SinglePage извлекает данные с веб-страниц.

Преимущества:

Алгоритм не привязывается к HTML-верстке страницы.

Перспективы:

Развитие веба движется в сторону семантического поиска и извлечение прямого ответа на вопрос.  С этой целью с недавних пор в веб-страницы внедряют микроформаты (vCard, hCalendar).

Однако в вебе остается огромное количество документов, не размеченных в микроформате. Для этих документов требуются инструменты автоматического извлечения данных, наподобие SinglePage.

Но речь о семантической нагрузки извлеченного текста в докладе Сергея Нурка не отражена.

Вопрос по этому поводу мне так и не удалось ему задать.

Заключение.

Сергей очень хорошо представил свою работу, охотно отвечал на вопросы слушателей, облепивших его после доклада со всех сторон.

Впечатление от всей конференции очень приятное – достаточно высокий уровень изложения технической информации, интересные докладчики,  бодрящий кофе перед стартом🙂

Спасибо, Яндекс.

2 Comments

Filed under извлечение знаний, IT conference, семантический веб, semantic web

2 responses to “Yet Another Conference 2010: Автоматический сбор данных по примерам

  1. KoMaTo3

    Хрень это всё. Вспомни двигло ие1-5. И вспомни хоть одного веб-девелопера, не матерящего иешку. Есть такие? Вычеркни их из своего круга общения. Оценка контента на основе вёрстки – глупо, согласен, но и слепо соблюдать важность инфы на основе тегов – не лучше. Палка о двух концах, которую до сих пор не решили. Все подстраиваются под поискового бота… Но почему? Ведь, наоборот, бот должен подстраиваться под НАС. ВСЁ изначально построено неправильно. СЕОшники работают на ботов, и это правильно? Тук-тук, товарищи ботоводы, акститесь…
    А по поводу темы в целом… имхо, нет возможности передавать информацию каким-то структурированным потоком. Вспомни хотя бы десяток форматов хранения изображений. Так что будут индивиды, ломающие весь принцип бытия. Были госты – их порвали ISO, и пока будет это соревновани – не стоит ждать никаких поползновений в плане оценки информации.

  2. Спасибо за комментарий.
    Конечно, нужно проверять и модерировать данные, извлеченные из структуры.
    Но даже если извлечение данных позволит автоматизировать сбор информации хотя бы с 10% достоверных сайтов, это будет уже прогресс и польза.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s