А.Левенчук -- будущее науки

Будущее науки

Москва9 декабря 2015

2

Проблема с наукой

• Относительный застой (смена теорий по-крупному, как сто лет назад, происходит реже)• Потому что огромный объём согласованного знания,

не любой человеческий ум (и даже не любой научный коллектив) способен быстро оценить гипотезу на предмет её противоречивости, продуктивности и т.д.• Пример Мочизуки (2500 страниц математического

текста, который понимают пятеро во всём мире)• Пример стандартной теории в физике• Пример медицинского знания

3

Основной тренд цивилизации: автоматизация• Неокортекс• Неоэкзокортекс (книги, бумага)• Автоматизация «управления контентом»: успех!• Автоматизация порождения контента:• Инженерия знания (зима искусственного интеллекта)• Обучение [end-to-end learning]

4

(Искусственный?) интеллект: «то, что компьютеры пока не умеют делать»

Граница быстро движется: шахматы, вождение автомобиля, распознавание речи и т.д.

Смена парадигмы:Обучение (learning) проектированию, конструированию, моделированию вместо/вместе программирования (GOFAI)Эпистемология (неявное знание и методы обучения) вместо/вместе онтологии (явного сконструированного знания)

Машинное обучение бывает (с выходом на master algorithm):• Символьное (правила)

• Коннекционистское (нейронные сети) – сегодня в моде («глубокое обучение»)!

• Байесовское (вероятности)• Эволюционное (генетические алгоритмы)• Поиском аналогий

Почему только сейчас?!Оборудование: enabling technology

Интернет (1990 – первый браузер WWW)• Линии связи позволили

передавать картинки на дом (т.е. стало можно использовать WWW)

• Дисплеи смогли картинки показать• Процессоры смогли картинки

обработать

250Kb веб-страница• 56Kbps – 36 секунд• 1Mbps – 2 секунды• 100Mbps – 0.2 секунды

Нейронные сетки (2012 – первая победа на соревнованиях)• Процессоры сумели выдать

терафлопс, нужный для научения сетки за обозримое время

• Связь и память смогли дать терабайты данных для научения

• 1TFLOP -- 200млн. человек по 14 вычислений на калькуляторе в день каждый, за год

• GTX Titan X – 7TFLOPS (single preсision)• Intel Knights Landing Xeon Phi – 6TFLOPS (

http://www.zdnet.com/article/intels-next-big-thing-knights-landing/, http://arxiv.org/abs/1506.09067)

• FPGA: эксперименты до 10TFLOPS и до 6x меньше TFLOPS/Watt

• Квантовые компьютеры – на подходе!

5http://www.theguardian.com/technology/2011/jul/06/broadband-speeds-uk

http://www.zdnet.com/article/intels-next-big-thing-knights-landing/

http://www.zdnet.com/article/intels-next-big-thing-knights-landing/

http://arxiv.org/abs/1506.09067

http://arxiv.org/abs/1506.09067

6

Тренды в deep learning

• Представления (representations): распределённые (в том числе embeddings)• Учитель• С учителем (помеченные данные, их много)• С умным учителем• Без учителя

• Гибридность: neural-symbolic integration (http://www.neural-symbolic.org/CoCo2015/), равно как neural-Bayes integration и т.д..• От распознавания к порождению и выводу.

http://www.neural-symbolic.org/CoCo2015/

http://www.neural-symbolic.org/CoCo2015/

7

Изменение ситуации с глубоким обучением• Новые алгоритмы (1998-2006)• Поддержка «железом» (GPU)• Победы на соревнованиях по анализу больших объемов информации: с

2012 года• Экспоненциальный рост участников: удвоение за год это

консервативная оценка (конференция ICML 2015 – это 4000 участников, ICML 2014 – 2500 участников)

• Поддержка не только новыми алгоритмами, но и новым «железом»• «открытая воспроизводимая наука», в том числе значительная часть

финансирования не государственная [на ICML 2015 от Google 140 чел. – другие границы между бизнесом и наукой]

• Сверхчеловеческие результаты уже получены в традиционной области обработки видео и аудио (где «миллионы лет эволюции сделали мозг с колоссальными возможностями по обработке информации»)

8

Проблемы глубокого обучения• Распознавать и синтезировать – уже не

проблема• Очень долго работают алгоритмы обучения • Очень много требуют данных• Выученное знание не модульно (трудно

переносится в другую ситуацию)• плохо работает «вывод» (reasoning) • плохо строится план

9

State of the art

• Полное преображение лингвистики (embeddings). Модель языка учится компьютером за неделю счёта, а не программируется за 10 лет.• Перенос работы с лингвистикой на работу с

изображениями и видео! Метафора «перевода» в распределённом представлении. Синестезия!!!• Полное преображение робототехники (вместо

классической механики – visuomotor learning).• Обработка сверхбольших объемов данных в

классической науке:• Бозон Хиггса• Расшифровка генома

10

Кто эти добрые люди из deep learning?• Ситуация как в 1968 году в программировании: разделения на

computer science и software engineering ещё не произошло.• Не имеют самоназвания. Склоняются, что занимаются

инженерией, но есть и термин data scientists.• В принципе, отсутствие названия и явного отнесения к науке

или инженерии не мешает получать результаты (как и в случае программирования в 1968 году)!

• Многие достижения науки из разряда «практичных» окажутся скоро «забытыми».

• Мосты строили и без использования достижений сопротивления материалов, и большинство из этих мостов стоят до сих пор. Инженерия не основана на науке, хотя с удовольствием пользуется её плодами.

11

Дилемма инноватора: в полной мере применима к науке!(Clayton Christensen из Гарварда)

Характеристики

Время

Лучшие технологии

Прорывные технологии

Характеристики лучших ТЕОРИЙНа рынке

Характеристики худших ТЕОРИЙ на рынке

http://web.mit.edu/6.933/www/Fall2000/teradyne/clay.html

• Инновации обеспечиваются на неприкладных уровнях технологического стека (проектирование – алгоритмы обучения)

• Обучение компьютеров сегодня даёт любительские результаты во всём, кроме задач распознавания изображений, звука, сигналов, вторжений и т.д..

• Через 5 лет эти любительские результаты окажутся профессиональными, если не сверхчеловеческими. Всё происходит быстро.

12

Что тут важнее всего?• Наука автоматизируется. У кого есть знаниевый эксаватор, тот

выиграет у использующего знаниевую лопату. Вкладываться нужно не столько в собственно научное «землекопательство», сколько в "экскаваторостроение" для науки, уже отнюдь не "земляные работы". Но "экскаваторостроение" к науке не отнесёшь, это инженерия.

• Новая парадигма «невидима» для незнакомых с ней. Ключ сегодня – распределённое (несимвольное, неонтологическое, некатегориальное) представление знаний и работа с ним. Работа с таким знанием формально не будет признаваться наукой, а «классическая наука» быстро скатится к статусу схоластической (и поэтому не слишком уважаемой) деятельности.

• Наша задача получать actionable knowledge, а не называться «наукой». Так что нужно как-то начинать работать мимо словесных ярлыков. Эти словесные ярлыки нужны только для получения госфинансирования, льгот, орденов и медалей.

13

Спасибо за внимание

Анатолий Левенчук,http://[email protected]

TechInvestLab

http://ailev.ru/

http://ailev.ru/

mailto:[email protected]

А.Левенчук -- будущее науки

Science

Transcript of А.Левенчук -- будущее науки