Hadoop: различия между версиями

Текущая версия от 10:26, 18 октября 2015

Данная страница находится в разработке.
Эта страница ещё не закончена. Информация, представленная здесь, может оказаться неполной или неверной.

Что это такое?

Hadoop на Wikipedia: Apache Hadoop является свободным Java фреймворком, поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании. Hadoop прозрачно предоставляет приложениям надёжность и быстродействие операций с данными.

Как установить Hadoop на ALT Linux

Данная инструкция описывает ALT-специфику установки Hadoop-кластера из двух машин. Пусть в нашем кластере есть две машины - hadoopt1 и hadoopt2. DNS-резолвинг работает.

Устанавливаем java-1.6.0-sun-devel и rpm-ки hadoop-* из ftp://ftp.altlinux.org/pub/people/vitty/hadoop/
На всех нодах редактируем /etc/hadoop/masters, где пишем кто у нас будет master-нодой

cat /etc/hadoop/masters
hadoopt1

На всех нодах редактируем /etc/hadoop/slaves, где перечисляем все slave-ноды:

cat /etc/hadoop/slaves
hadoopt1
hadoopt2

На всех нодах редактируем /etc/hadoop/core-site.xml, заменяя localhost на имя master-ноды
На всех нодах редактируем /etc/hadoop/mapred-site.xml, заменяя localhost на имя master-ноды
Обеспечиваем беспарольный ssh для пользователей hadoop между нодами

На каждой ноде:
su - hadoop
ssh-keygen -t rsa -b 2048
passphrase не задаём

Публичную часть всех получившихся ключей заносим во все /var/lib/hadoop/.ssh/authorized_keys (в том числе собственную обеспечивая таким образом ssh на себя)
Заходим со всех машин на все:

su - hadoop
ssh hadoopt1
^d
ssh hadoopt2
...

На мастер-ноде форматируем раздел:

su - hadoop
/usr/lib/hadoop/bin/hadoop namenode -format

Запускаем

service hadoop-dfs start
service hadoop-mapred start

Как пользоваться Hadoop

Master-пользователем Hadoop является hadoop. Соответственно, все привилегированные операции выполняются из-под него.

Пример:
$ /usr/lib/hadoop/bin/hadoop fs -mkdir /test
$ /usr/lib/hadoop/bin/hadoop fs -chown -R test /test
$ /usr/lib/hadoop/bin/hadoop fs -ls /
Found 2 items
drwxr-xr-x   - test   supergroup          0 2010-11-08 17:40 /test
drwxr-xr-x   - hadoop supergroup          0 2010-11-08 17:38 /tmp

Системному администратору

@@ Строка 1: / Строка 1: @@
-[[Категория:Admin]]
 {{stub}}
 == Что это такое? ==
-[http://ru.wikipedia.org/wiki/Hadoop Wikipedia:] Apache Hadoop является свободным Java фреймворком, поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании. Hadoop прозрачно предоставляет приложениям надёжность и быстродействие операций с данными.
+[[ruwp:Hadoop|Hadoop на Wikipedia:]] Apache Hadoop является свободным Java фреймворком, поддерживающим выполнение распределённых приложений, работающих на больших кластерах, построенных на обычном оборудовании. Hadoop прозрачно предоставляет приложениям надёжность и быстродействие операций с данными.
 == Как установить Hadoop на ALT Linux ==
@@ Строка 46: / Строка 45: @@
   drwxr-xr-x   - test   supergroup          0 2010-11-08 17:40 /test
   drwxr-xr-x   - hadoop supergroup          0 2010-11-08 17:38 /tmp
+[[Категория:Admin]]
+{{Category navigation|title=Системному администратору|category=Admin|sortkey={{SUBPAGENAME}}}}