Overview and Evaluation of Java Component Search System SPARS-J
Microsoft FAST Enterprise Search Technologies Overview
-
Upload
michael-kozloff -
Category
Technology
-
view
1.946 -
download
0
Transcript of Microsoft FAST Enterprise Search Technologies Overview
Поиск создает ценность на любой стадии возникновения добавленной стоимости
Поиск – единственная технология, дающая доступ к любой информации
Поиск должен быть частью информационной инфраструктуры любого предприятия
Клиентские решения для бизнесов чьи доходы зависят от поиска
Решения для сотрудников компаний для увеличения продуктивности
SharePoint Server for Internet Sites
FAST Search for SharePoint Internet Sites
SharePoint Server
FAST Search for SharePoint
FAST Search for Internal Applications
FAST Search For Internet Business
Релевантность (контент)
Персонализация (контекст)
Поисковые приложения
В результате в видите 5
случайных записей из
найденных 2461...
Барьер для пользователя
в виде большой формы
для ввода запроса
Набираем ―3d l‖:
подсказки ввода
Визуальные лучшие
результаты Всплывающие окна
с доп. информацией
Поиск продавцов
Поиск магазинов на
карте
Если вы интернет-магазин
1. Название сайта (которое будет фигурировать на сайте)
2. URL магазина
3. Ссылку на YML файл магазина
В YML файле должны обязательно передаваться цены, наличие и стоимости доставки, а так же регион в которые доставляет магазин.
http://www.samsung.com/ru/promo/buy/index.html
―Одной из удивительных особенностей
сайта является визуальный поиск. Как
только пользователи вводят слова для
поиска, в реальном времени выводятся
изображения продуктов‖
-- Jang Woo-suk, Engineer, Samsung SDS
Ситуация
• Samsung.com поддерживает услуги компании на родных языках для 60 сайтов
• Поисковые требования отличаются в каждой стране. Например, поиск «сотовый телефон» в Ю.Корее должен на первом месте показать продукты Omnia, а в США – BlackJack
• Положительный опыт использования FAST для поиска в интранет
Решение
• Samsung создала ТЗ, провела тендер и выбрала FAST for Internet как лучший выбор
• Автоматическое завершение слов при вводе запросов, визуальные результаты, оптимизация показа других результатов могут быть настроены для каждой и стран
ROI
• Рост производительности поиска по сайтам
• Рост CTR на 20%
• Визуальный поиск в реальном времени для эффективного мерчендайзинга
Business Rules
InPerspective™
Core Algorithmic Model
Приложение
Порядок
сортировки,
навигация, оценка
релевантности
Кто контролирует Механизм контроля
Пользователь
Бизнес
менеджер
Продвижение
позиции запросов
и документов
Администратор ―Rank Profile‖
Разработчик Алгоритмический
«вес»
Уровни контроля релевантности
Свежесть
Законченность
Авторство
Статистика
Качество
Расстояние
Rank-Profile: A Relevancy Mixing Board
Authority
:
Freshnes
s:
Proximity
: Context: Body:
Descripti
on URL:
Keyword
s: Title:
•Rank-Profile: финансовые новости
•Description •Body: •URL: •Keywords: •Title: •Context: •Proximity: •Freshness: •Authority:
•Rank-Profile: по умолчанию (интранет)
•Description •Body: •URL: •Keywords: •Title: •Context: •Proximity: •Freshness: •Authority:
•Rank-Profile: Wealth Management
•Description •Body: •URL: •Keywords: •Title: •Context: •Proximity: •Freshness: •Authority:
Ко
нте
нт
Marketing Sales Procurement Consulting Research HR / Legal IT Support Production
На основе анализа поискового поведения
История кликов
• Определяет сортировку результатов поиска по релевантности
Подсказки похожих запросов
• Создаются из анализа логов
Пользовательские метки (tags)
• Используются для уточнения запросов и навигации
Системные метаданные (определения)
• Автоматически создаются из индексированного контента для уточнения запросов
КОНЦЕПЦИЯ
ПРОДУКТ
КОМПАНИЯ
Четыре способа управлять контекстом из коробки!
Ключевые слова &
Синонимы
Лучшие & Визуальные
лучшие
Позиция документа в
списке результатов
Позиция сайта в списке
результатов
Для любых определенных групп пользователей
Представление результатов в контексте
Разные модели релевантности
Визуально лучшие
Лучшие результаты и продвижение
сата
Ключевые слова и
синонимы
Позиция документа
Контекст
пользователя:
менеджер по
продаже
финансовых услуг,
Осло, Норвегия
Фильтры в контексте
пользователя
Руководитель отдела продаж ERP
Определение релевантности
на основе ролей
Функциональное представление
результатов
Навигация в соответствии с требованиями
бизнеса
Консультант по внедрению ERP
About Statoil
• «Статойл» является интегрированной нефтегазовой
компанией с 29,000 сотрудниками и работающая в 40
странах
• Общий доход в 2009: 80 миллиардов долл. США.
Крупнейшая компания Норвегии.
Задача
• Новый интранет поиск с ролевой поддержкой
пользователей на огромных массивах информации и
числе запросов
• Обеспечение безопасности, обмена и управления
информацией
• Миграция данных и обслуживание, интеграция с
унаследованными технологиями
Решение
• Совместная работа и информационный обмен через
организационные и географические границы
• Аудируемый, простой, правильный и безопасный доступ к
информации с поддержкой ее жизненного цикла, с
учетом юридических требований и ролей
пользователей
• Содействие эффективному управлению изменениями для
широкого признания новой информационной
инфраструктуры
Результаты с FAST ESP
20TB данных, с ростом на 10TB в год
Надежный доступ к огромным объемам
данных, 24/7, для разных ролей
пользователей
Комплексный контроль: объем,
пропускная способность, техническое
обслуживание…
Multinational Energy Company
End user requirements: I love IT!
«Как обеспечить поддержку уникальных поисковых потребностей разных
подразделений компании?»
Продажи:
Всесторонний анализ
данных по клиентам
Услуги:
База знаний
Маркетинг:
конкурентная
аналитика
Исследования
и разработки:
инновационный портал
Поддержка:
консультант центра
обработки вызовов
Операции:
портал систем
и логистики
Юридический, кадровый, финансовый или ИТ-отдел…
ДИТ перегружен
текущими проектами
… и не может начинать
новые
Я занят
на 10
проектах!
(Объявление проектов,
которые может поддержать ДИТ)
Что случится с Проектом №11 и всеми остальными?
И что они
теперь будут
делать?
10 бизнес-спонсоров
пляшут от радости
Спонсор проекта 11
(… 12, 13, 14) решает задачу
самостоятельно
… и начинает использовать
решение
Но, т.к. разработка
велась без контроля ДИТ, есть проблемы с безопасностью, интерфесами, интеграцией, отчетностью,
масшабируемостью, управляемостью, …
Через некоторое
время приложение становится важным
и ДИТ должен его поддерживать
Люди в ДИТ
полюбят мою
программу!
Как мне
избежать этих
проблем?
Директор по
разработке
«Партизанская» разработка
Зоопарк платформ
Хаотичные затраты
Несоответствие стандартам
Риски для бизнеса
Поисковые
системы
Базы
данных
• Записи
• Точность
• Транзакции
• SQL (сложно)
• Медленно
• Производительность?
• Документы
• Похожесть
• Рэнкинг
• Просто
• Быстро
• Релевантно?
Поисковые
системы
Базы
данных
Поисковые
системы
Базы
данных
Поисковое приложение (Search-based Application – SBA) это приложение , в котором технологии поиска используется в качестве основной инфраструктуры для доступа к информации и отчетности.
Поисковые приложения используют семантические технологии в сочетании с нормализацией и классификацией неструктурированых, частично структурированных и / или структурированных данных из различных источников, а также с использованием технологии естественного языка для доступа к агрегированной информации.
Wikipedia
0
100
200
300
400
500
600
700
800
900
20 50 100
FAST
ORA
20 пользователей
50 пользоователей
100 пользователей
Дмитрий Николаев Консультант по управлению капиталом (Wealth Management Advisor) Задача: своевременное и качественное консультирование существующих и потенциальных клиентов
Получает оповещение о росте рисков для некоторых холдингов на рынке недвижимости
Получено через портал, LOB/CRM приложение, почту, etc. В банке есть группа, занимающаяся мониторингом рынков, а также эксперты, разрабатывающие отчеты по портфелям ценных бумаг
Использует поисковые возможности портала знаний для понимания своих возможностей. Например, клиенты и лиды для общения, материалы для отправки, к кому из экспертов обратиться за помощью
Информация из разных источников в структурированном, и неструктурированном виде Много требований и аспектов, которые необходимо соблюсти в интересах каждого клиента Временные ограничения
Федеративный
сторонний
контент
Ранжирование по
задачам
Бизнес-отчеты
Сводные данные
по клиенту
Поиск людей и
экспертизы
Непосредственное
выполнение действий
из результатов поиска
Визуальная
навигация
Индексация различных источников OOB шлюзы к SharePoint (отчеты, документы), exchange public folders, общие файлы; BDC с настройкой в SPD (без кодирования) для портфеля клиента/компаний в холдингах
Обработка контента: создание метаданных Имена в холдингах, термины, компании, люди Синонимы (real estate ~ REIT)
Готовые (OOB) веб части Federation, People Search, Search actions
Пользовательские веб-части для визуальной навигации Группировка результатов – OOB Пользовательские профили релевантности SharePoint процессы для действий с результатами
Обра-ботка
контента
Центр поиска
Контент
Профили пользователей
Шлюз к LOB –
приложениям
конфигурируемый через
SharePoint Designer
OOB шлюзы к SharePoint;
файлам; CMS системам
Intelligent Web Crawler
Метаданные для проектов,
людей, терминов,
таксономий,…
OOB веб части (9)
Расширенные веб-части
(4)
Пользовательские веб-
части (2)
Drag & Drop PPT
конструктор
Пользовательские
процессы SharPoint
OOB Федерация и поиск
людей
Настраивается для этого
приложения
OOB присутствие & чат
OOB = из коробки
Преобразование
контента
обеспечивает
нормализацию и очистку
информации
Глобальное
использование
с функциями
лингвистической
обработки для 45 языков
и возможностями
распознавания контента
на более чем 80 языках
Добавление или
расширение этапов
для проведения поиска
дубликатов, выполнения
перевода или других
бизнес-функций
обработки
…
Средство преобразования
форматов
Средство определения
языка
Средство лемматизации
Средство разбиения слов
Средство извлечения сущностей
Нормализатор даты и времени
Средство поиска дубликатов
Средство анализа веб-трафика
Средство сопоставления
свойств
Последовательность шагов по преобразованию содержимого Разделение контента на элементарные блоки для выделения смысла Понимает кодировки файлов, форматы данных и обычные языки Поддерживает 400+ форматов файлов и 80+ языков, включая русский
Обработка контента для улучшения поиска Нормализация содержимого для применения модели релевантности Идентификация структурированных и неструктурированных метаданных Назначение метаданных к свойствам SharePoint Crawler
Map Crawled
Properties
Отображает все метаданные, которые были найдены на
различных стадиях на поисковую базу Web Link
Analysis
Анализирует гиперссылки в тексте документа, извлекает
тексты ссылок, которые учитываются при определении
релевантности документа
Document
Vector
Создает уникальное представление документа,
включающее значимые термины и частоту их
упоминания. Используется для поиска похожих
документов.
Date and Time
Normalization
Конвертирует даты и время в стандартный формат для
обработки локальных форматов. Например, определяет
что 14.03.2010 это 14 марта 2010 года.
Entity Extraction Определяет соответствие между термином в содержимом и
предопределенной категорией Поддерживаются Люди,
Организации и Местонахождения, может быть расширено
Вами.
Lemmatization Находит корень слова на выбранном языке. Понимает
грамматику и контекст, специфичную для языка.
Например установит соответствие между бежать, бег бежит
к единственной лемме.
Tokenization Применяет специфичные для языка правила для
идентификации слов, понятий, идеом и фраз.
Дополнительно применяет специфические разделители
для телефонных номеров, чисел, стоимостей и т.д.
Language
Encoding and
Detection
Определяет язык и кодировку документа. Обеспечивает
применение правильных словарей и правил на следующих
стадиях.
Format
Conversion
Преобразует различные форматы файлов в текст.
Вы можете описать свою логику, которая будет получать данные (характеристики документа) из конвейера и после обработки возвращать результаты в поисковый индекс
Добавление логики при обработке контента
Специализированная индексация Pipeline Extensibility – специальная стадия. Вашему приложению передаются характеристики в качестве исходных данных, а результаты его работы возвращаются в поисковый индекс
Выполнение в «песочнице» Исполняемый код и временные файлы ограничиваются по time-out. Стадия вызывается непосредственно перед Определением соответствия между индексируемыми полями и полями индекса
Решения партнеров Способ добавления логики в процесс индексации
Например, семантико-синтаксический поиск с расширением от ABBYY
…
Поисковые вопросы на естественном русском языке
Мониторинг компании, персоналий и их деятельности, извлечение знаний, взаимосвязей, сбор фактов и сведений
Кластеризация, классификация и фильтрация, в том числе определение «похожих» документов по смыслу
Аннотирование и реферирование документов, в том числе оперативное построение аналитических отчетов на основе различных данных
• «пила»<глагол> или «пила»<существительное> и т.п.
Снятие морфологической
омонимии
• «банка» <сосуд> или «банка» <финансовая организация> Поиск по смыслу
• подстановка объекта местоимением Поиск с учетом
анафор
• "Покупка" [Object:*] - вернет, то что покупают
Выделение в результатах поиска
аргументов
Быстрая кастомизация
Богатые возможности платформы
Управляемые приложения
Развивающаяся экосистема
«In the e-discovery market, everything revolves around search, and we depend on FAST as a critical component of our Online Review Application». “Applied Discovery has some unique processing requirements, so the ability to create custom operators in CTS is invaluable.”
Bill Pieser, CTO, Applied Discovery
58
Многие источники поддерживают настройки безопасности на уровне документа: ACLs управляют правами доступа FAST Smart Connectors + Security Access Module синхронизируют эти права в индексе Пользователь видит только результаты, к которым у него есть доступ на чтение и выше
Включая списки результатов и навигаторы
Безопасный
поисковый
механизм
Корректное
представление
результатов поиска
Безопасность
документов
Интранет безопасность FAST ESP для контроля доступа на уровне пользователей и
документов
Интеграция с IIS/Active Directory
Большинство FAST Content Connectors
поддерживают безопасность на
уровне документов с SAM
Подключаемый модуль с интерфейсом для других источников
авторизации
Интеграция с механизм внешней авторизации при индексирование контента и при
обработка запросов
Интерфейс
поиска
FAST Security Access Module (SAM)
Directory Server
(например,AD)
FAST ESP: обработка и индексация контента
ACL
Monitor
User
Monitor
Directory-ACL
сопоставление
Хранилища
контента
Пользователи /
группы
AP
I
Обработка документов
AP
I
Извлечение
данных - Шлюзы
- API
Индекс
Фильтрация
доступа
Добавить ACL
к документу
Документы
Обычная проверка подлинности пользователя
Q/R обработка
(1)
(2)
(1) Добавить фильтр доступа к запросу
(2) Факультативная проверка
Разработка поисковых приложений • eCommerce и медиа-сайты • Маркетинг и инновации –
R&D, анализ поведения клиентов, отзывы по продуктам, мониторинг конкурентов
• Соответствие требованиям, управление рисками
• Продажи и поддержка • Мониторинг, наблюдение и
реагирование • Интеграция и отчетность в
реальном времени • …
Из коробки
• Поиск по интранет и интернет сайтам
• Управление знаниями
• Ролевой контекст
Обнаружение и типизация информационных источников внутри организации
Разработка глоссария и таксономии корпоративных знаний
Внедрение FAST Enterprise Search for SharePoint / Internet Sites
Интеграция поисковых технологий с корпоративными приложениями
Обучение пользователей
Решаемые задачи: Классификация контента для модели доступа сотрудников к информации
Корпоративный тезаурус (словарь терминов и отношений)
Корпоративная библиотека знаний
Учебные материалы
Базы знаний для поддержки клиентов…
http://devbusiness.ru/index.html
66
67
Бизнес анализ
• SQL Server BI, SharePoint (web & BI), Silverlight, Google Analytics, Omniture
Анализ контента и поведения пользователей
• SharePoint, FAST Search
Динамическая навигация
• FAST Search
Подсказки и рекомендации
• FAST Search
Социальные сети и мобильные устройства
• FAST Search, Windows Phone, SharePoint
Новые модальности для взаимодействия с пользователем
• Speech Server, Silverlight, FAST Search, CCF, Tag
Источник: Microsoft
IDC: ―Next-Generation Site Search: Redefining
Relevance for a Personalized Era‖, 12/2010
>1000 глобальных компаний используют FAST для критических бизнес-задач
150% роста трафика
Web2.0 сделан на поиске
Огромный рост трафика +316% рост
>$1.5B >$25B online
Только FAST...
Контекстный поиск
Социальные вычисления
Модель СМИ
нового поколения
Разгрузка баз данных
MSFT+SAP+FAST
One-Stop
портал знаний
65-75% внедрений FAST включают структурированные источники данных
Схема «магический квадрант» (Magic Quadrant) защищена авторским правом в сентябре 2009
года компанией Gartner, Inc. и повторно используется с ее разрешения. «Магический
квадрант» — это графическое представление рынка за определенный период времени. По
определению компании Gartner, он отражает ее аналитические результаты оценки
определенных поставщиков по критериям данного рынка. Компания Gartner не рекламирует
отдельных поставщиков, продукты или услуги, изображенные на схеме «магический
квадрант», и не рекомендует пользователям технологий выбирать только поставщиков,
расположенных в квадранте «Лидеры». «Магический квадрант» предназначен исключительно
для исследований и не является конкретным руководством к действию. Компания Gartner не
предоставляет никаких гарантий, явных или подразумеваемых, в отношении данного
исследования, в том числе гарантий пригодности для продажи или соответствия
определенным целям. Схема «магический квадрант» опубликована компанией Gartner как
часть более крупной исследовательской работы и должна оцениваться в контексте всего
отчета. Отчет компании Gartner доступен по запросу в корпорацию Майкрософт.
ИСТОЧНИК: Компания Gartner, Inc., «Магический квадрант для технологий доступа к информации»
«Магический квадрант»
Gartner для технологий
доступа к информации,
2009 г.
Поиск помогает вашим клиентам найти то что им нужно
Поиск помогает вашим сотрудникам быть более продуктивными
Поисковые приложения повышают релевантность на основе персонализации
Поиск создает ценность на любой стадии возникновения добавленной стоимости
Поиск – единственная технология, дающая доступ к любой информации
Поиск должен быть частью информационной инфраструктуры любого предприятия
Лидирующая технология: релевантность, персонализация, поисковые приложения
Адапатируемая и масштабируемая платформа для управления информацией
Единый безопасный механизм доступа к информации, включая интеграцию, поиск и BI
© 2011, Mikhail Kozlov. All rights reserved. Microsoft, Windows, Windows Vista and other product names are or may be registered trademarks and/or trademarks in the U.S. and/or other countries.
The information herein is for informational purposes only and represents the current view of Mikhail Kozlov as of the date of this presentation. Because presenter must respond to changing market conditions, it
should not be interpreted to be a commitment on the part of Mikhail Kozlov and/or any third party, and Mikhail Kozlov cannot guarantee the accuracy of any information provided after the date of this presentation.
MIKHAIL KOZLOV MAKES NO WARRANTIES, EXPRESS, IMPLIED OR STATUTORY, AS TO THE INFORMATION IN THIS PRESENTATION.
2008 Hispanic Retail
Excellence Award
2008 Creating Business
Value With Technology
Innovation
2008 Property Portal Award
2007 Top 75 Electronics
Distributors, Rank #1
ArrowElectronics
2009 Developer Award
for Enterprise Search Outstanding Achievement in
Website Development
ANZ Banking Group
• Является одной из крупнейших компаний в
Австралии и Новой Зеландии, которая входит в
число 50 крупнейших банков в мире.
• Всемирная штаб-квартира находится в
Мельбурне, где она впервые открыла свое
отделение, как Bank of Australasia в 1830х.
Задача
• Прошлая поисковая система не давала точные
результаты поиска.
• Клиенты не могли легко найти информацию о
продуктах и услугах
• Ограниченные возможности масштабирования
Решение
• Способность адаптироваться и тонкой
настройки результатов поиска
• Быстрое внедрение
Результаты с FAST ESP
Повышение удовлетворенности
пользователей результами поиска
Улучшенные результаты поиска для
внутреннего использования
контента
Среди 50 топ банков мира
«With our 2010 products scheduled for release in a few months, we’ve just started to plan for our next wave of products. As a part of that planning process, we have decided that in order to deliver more innovation per release in the future, the 2010 products will be the last to include a search core that runs on Linux and UNIX.»
Bjørn Olstad
CTO, FAST
Distinguished Engineer, Microsoft
80