Понятие Машинного обучения

ОПЕРАТИВНЫЙ И ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ

НАУЧНЫХ ИССЛЕДОВАНИЙ

Конспект лекций

Өскемен

Усть- Каменогорск

1 МЕТОДЫ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ И НЕКОТОРЫЕ ИХ ПРИЛОЖЕНИЯ

Термин Data Mining получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Оба процесса требуют или просеивания огромного количества сырого материала, или разумного исследования и поиска искомых ценностей.

Термин Data Mining часто переводится как добыча данных, извлечение информации, раскопка данных, интеллектуальный анализ данных, средства поиска закономерностей, извлечение знаний, анализ шаблонов, "извлечение зерен знаний из гор данных", раскопка знаний в базах данных, информационная проходка данных, "промывание" данных. Понятие "обнаружение знаний в базах данных" (Knowledge Discovery in Databases, KDD) можно считать синонимом Data Mining.

Понятие Data Mining, появившееся в 1978 году, приобрело высокую популярность в современной трактовке примерно с первой половины 1990-х годов. До этого времени обработка и анализ данных осуществлялся в рамках прикладной статистики, при этом в основном решались задачи обработки небольших баз данных.

О популярности Data Mining говорит и тот факт, что результат поиска термина "Data Mining" в поисковой системе Google (на сентябрь 2005 года) - более 18 миллионов страниц.

Что же такое Data Mining?

Data Mining - мультидисциплинарная область, возникшая и развивающаяся на базе таких наук как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и др., см. рис. 1.1.

Data Mining
Теория баз данных
Статистика
Машинное обучения
Визуализация
Алгоритмизация
Искусственный интеллект
Распознавание образов
Другие дисциплины


Рисунок 1.1 Data Mining как мультидисциплинарная область

Приведем краткое описание некоторых дисциплин, на стыке которых появилась технология Data Mining.

Понятие Статистики

Статистика - это наука о методах сбора данных, их обработки и анализа для выявления закономерностей, присущих изучаемому явлению.

Статистика является совокупностью методов планирования эксперимента, сбора данных, их представления и обобщения, а также анализа и получения выводов на основании этих данных.

Статистика оперирует данными, полученными в результате наблюдений либо экспериментов. Одна из последующих глав будет посвящена понятию данных.



Понятие Машинного обучения

Единого определения машинного обучения на сегодняшний день нет.

Машинное обучение можно охарактеризовать как процесс получения программой новых знаний. Митчелл в 1996 году дал такое определение: "Машинное обучение - это наука, которая изучает компьютерные алгоритмы, автоматически улучшающиеся во время работы".

Одним из наиболее популярных примеров алгоритма машинного обучения являются нейронные сети.


3420479168504635.html
3420537896159548.html
    PR.RU™