Centos как запустить hadoop
Мы часто осуществляем развертывание различных кластерных систем, поэтому хорошие инструкции на вес золота. Сегодня мы предлагаем хорошую инструкцию по развертыванию кластера Hadoop, подходящего для разработки и малых кластеров без требований к высокой доступности.
В данной статье представлена подробная инструкция по установке кластера Hadoop на ОС CentOS 7. Статья расчитана на читателя, уже имееющего представление о Hadoop и ОС Linux.
Топология развертывания
Подготовка CentOS
Все действия данного раздела выполняются на каждом узле конфигурации, если иное не указано.
В качестве исходной системы для развертывания будем использовать минимальную установку CentOS 7. После установки системы необходимо добавить несколько программных пакетов:
Задание имени для каждого узла. Данный шаг необязательный, но важный для упрощения идентификации узлов.
Например, на узле master команда будет следующая:
Чтобы увидеть результат, необходимо повторно авторизоваться. Данную операцию необходимо выполнить на каждом узле с указанием корректного hostname узла.
Мы будем использовать OpenJDK 1.8, поскольку этот пакет включен в стандартный репозиторий CentOS 7.
Создайте файл /etc/profile.d/java.sh со следующим содержимым:
Для того, чтобы убедиться в корректности настройки завершите сессию и войдите в систему снова. По команде env вы должны увидеть корректные переменные окружения. Команда java -version должна выдать корректную версию java.
Создайте пользователя и группу пользователей для Hadoop:
Внесите изменения в файл hosts для взаимной идентификации узлов по имени:
Проверьте, что узлы идентифицируются верно:
Настройте доступ по SSH без пароля на каждый узел с каждого узла:
Проверьте, что все узлы взаимно доступны по ключам SSH, без ввода пароля.
Остановите и отключите брандмауэр:
Установка Hadoop
Все действия данного шага выполняются на узле master. Кроме того, все операции выполняются под пользователем hadoop.
Скачайте и распакуйте дистрибутив:
Добавьте переменные окружения Hadoop в сценарий инициализаци сессии bash
Примените данные переменные окружения, чтобы они стали доступны:
Теперь отредактируем файлы конфигурации Hadoop для нашей трехузловой топологии.
Добавьте имя узла slave в файл $HADOOP_HOME/etc/hadoop/slaves :
Добавьте имя вторичного узла в файл $HADOOP_HOME/etc/hadoop/masters :
Если требуется отключить проверки безопасности в Hadoop, что часто используется при разработке, добавьте в файл следующую секцию:
Создайте директории, необходимые Hadoop:
Скопируйте дерево Hadoop и файлы параметров окружения на slave-узлы:
Запуск кластера Hadoop
Запустите распределенную файловую систему DFS:
Запустите распределенную вычислительную систему YARN:
Для остановки кластера Hadoop выполните:
Проверка состояния кластера
На каждом узле запустите команду jps. Убедитесь, что возвращается успешный ответ.
Успешный ответ jps на узле master:
Для детального мониторинга состояния кластера воспользуйтесь веб-интерфейсами Hadoop:
- — для просмотра состояния хранилища HDFS.
- — для просмотра ресурсов YARN и состояния приложений.
Это все, что необходимо для того, чтобы развернуть базовый кластер Hadoop с поддержкой репликации данных на 3х узлах.
В рамках данного развертывания используется Hadoop с единой точкой отказа NameNode. Несмотря на то, что используется Secondary NameNode, кластер не является отказоустойчивым и должен применяться для целей разработки или малых установок. В больших установках необходимо применять более сложное развертывание с отказоустойчивыми NameNode. Мы расскажем об этом в будущих статьях.
Если вы обнаружили ошибку, вам непонятны некоторые инструкции, или есть предложения по улучшению статьи, будем рады, если вы свяжетесь с нами. Успехов в работе с Hadoop.
Hadoop is a free, open-source and Java-based software framework used for storage and processing of large datasets on clusters of machines. It uses HDFS to store its data and process these data using MapReduce. It is an ecosystem of Big Data tools that are primarily used for data mining and machine learning. It has four major components such as Hadoop Common, HDFS, YARN, and MapReduce.
In this guide, we will explain how to install Apache Hadoop on RHEL/CentOS 8.
Before starting, it is a good idea to disable the SELinux in your system.
To disable SELinux, open the /etc/selinux/config file:
Change the following line:
Save the file when you are finished. Next, restart your system to apply the SELinux changes.
Hadoop is written in Java and supports only Java version 8. You can install OpenJDK 8 and ant using DNF command as shown below:
Once installed, verify the installed version of Java with the following command:
You should get the following output:
It is a good idea to create a separate user to run Hadoop for security reasons.
Run the following command to create a new user with name hadoop:
Next, set the password for this user with the following command:
Provide and confirm the new password as shown below:
Next, you will need to configure passwordless SSH authentication for the local system.
First, change the user to hadoop with the following command:
Next, run the following command to generate Public and Private Key Pairs:
You will be asked to enter the filename. Just press Enter to complete the process:
Next, append the generated public keys from id_rsa.pub to authorized_keys and set proper permission:
Next, verify the passwordless SSH authentication with the following command:
You will be asked to authenticate hosts by adding RSA keys to known hosts. Type yes and hit Enter to authenticate the localhost:
First, change the user to hadoop with the following command:
Next, download the latest version of Hadoop using the wget command:
Once downloaded, extract the downloaded file:
Next, rename the extracted directory to hadoop:
Next, you will need to configure Hadoop and Java Environment Variables on your system.
/.bashrc file in your favorite text editor:
Append the following lines:
Save and close the file. Then, activate the environment variables with the following command:
Next, open the Hadoop environment variable file:
Update the JAVA_HOME variable as per your Java installation path:
Save and close the file when you are finished.
First, you will need to create the namenode and datanode directories inside Hadoop home directory:
Run the following command to create both directories:
Next, edit the core-site.xml file and update with your system hostname:
Change the following name as per your system hostname:
Save and close the file. Then, edit the hdfs-site.xml file:
Change the NameNode and DataNode directory path as shown below:
Save and close the file. Then, edit the mapred-site.xml file:
Make the following changes:
Save and close the file. Then, edit the yarn-site.xml file:
Make the following changes:
Save and close the file when you are finished.
Before starting the Hadoop cluster. You will need to format the Namenode as a hadoop user.
Run the following command to format the hadoop Namenode:
You should get the following output:
After formating the Namenode, run the following command to start the hadoop cluster:
Once the HDFS started successfully, you should get the following output:
Next, start the YARN service as shown below:
You should get the following output:
You can now check the status of all Hadoop services using the jps command:
You should see all the running services in the following output:
Hadoop is now started and listening on port 9870 and 8088. Next, you will need to allow these ports through the firewall.
Run the following command to allow Hadoop connections through the firewall:
Next, reload the firewalld service to apply the changes:
At this point, the Hadoop cluster is installed and configured. Next, we will create some directories in HDFS filesystem to test the Hadoop.
Next, run the following command to list the above directory:
You should get the following output:
You can also verify the above directory in the Hadoop Namenode web interface.
Go to the Namenode web interface, click on the Utilities => Browse the file system. You should see your directories which you have created earlier in the following screen:
You can also stop the Hadoop Namenode and Yarn service any time by running the stop-dfs.sh and stop-yarn.sh script as a Hadoop user.
To stop the Hadoop Namenode service, run the following command as a hadoop user:
To stop the Hadoop Resource Manager service, run the following command:
In the above tutorial, you learned how to set up the Hadoop single node cluster on CentOS 8. I hope you have now enough knowledge to install the Hadoop in the production environment.
Step 1: Installing Java
Java is the primary requirement to setup Hadoop on any system, So make sure you have Java installed on your system using the following command.
Step 2: Creating Hadoop User
We recommend creating a normal (nor root) account for Hadoop working. So create a system account using the following command.
After creating an account, it also required to set up key-based ssh to its own account. To do this use execute following commands.
Step 3. Downloading Hadoop 2.6.5
Now download hadoop 2.6.0 source archive file using below command. You can also select alternate download mirror for increasing download speed.
Step 4. Configure Hadoop Pseudo-Distributed Mode
4.1. Setup Hadoop Environment Variables
First, we need to set environment variable uses by Hadoop. Edit
/.bashrc file and append following values at end of file.
Now apply the changes in current running environment
Now edit $HADOOP_HOME/etc/hadoop/hadoop-env.sh file and set JAVA_HOME environment variable. Change the JAVA path as per install on your system.
4.2. Edit Configuration Files
Edit core-site.xml
Edit hdfs-site.xml
Edit mapred-site.xml
Edit yarn-site.xml
4.3. Format Namenode
Now format the namenode using the following command, make sure that Storage directory is
Step 5. Start Hadoop Cluster
Now start your Hadoop cluster using the scripts provides by Hadoop. Just navigate to your Hadoop sbin directory and execute scripts one by one.
Now run start-dfs.sh script.
Now run start-yarn.sh script.
Step 6. Access Hadoop Services in Browser
Hadoop NameNode started on port 50070 default. Access your server on port 50070 in your favorite web browser.
Now access port 8088 for getting the information about cluster and all applications
Access port 50090 for getting details about secondary namenode.
Access port 50075 to get details about DataNode
Step 7. Test Hadoop Single Node Setup
You can also check this tutorial to run wordcount mapreduce job example using command line.
Установите Apache Hadoop на CentOS 8
Шаг 1. Во-первых, давайте начнем с проверки актуальности вашей системы.
Шаг 2. Установка Java.
Apache Hadoop написан на Java и поддерживает только версию Java 8. Вы можете установить OpenJDK 8 с помощью следующей команды:
Проверьте версию Java:
Шаг 3. Установка Apache Hadoop CentOS 8.
Рекомендуется создать обычного пользователя для настройки Apache Hadoop, создать пользователя с помощью следующей команды:
Далее нам нужно будет настроить SSH-аутентификацию без пароля для локальной системы:
Проверьте конфигурацию ssh без пароля с помощью команды:
Следующие шаги, загрузите последнюю стабильную версию Apache Hadoop. На момент написания этой статьи это версия 3.2.1:
Затем вам нужно будет настроить Hadoop и переменные среды Java в вашей системе:
Теперь мы активируем переменные среды с помощью следующей команды:
Затем откройте файл переменной среды Hadoop:
Hadoop имеет множество файлов конфигурации, которые необходимо настроить в соответствии с требованиями вашей инфраструктуры Hadoop. Начнем с конфигурации с базовой настройкой кластера с одним узлом Hadoop:
Редактировать : hdfs - site . xml
Редактировать : mapred - site . xml
Теперь отформатируйте namenode с помощью следующей команды, не забудьте проверить каталог хранилища:
Запустите демоны NameNode и DataNode с помощью скриптов, предоставленных Hadoop:
Шаг 4. Настройте брандмауэр.
Выполните следующую команду, чтобы разрешить подключения Apache Hadoop через брандмауэр:
Шаг 5. Доступ к Apache Hadoop.
Поздравляю! Вы успешно установили Apache Hadoop . Благодарим за использование этого руководства для установки Hadoop в системе CentOS 8. Для получения дополнительной помощи или полезной информации мы рекомендуем вам посетить официальный веб-сайт Apache Hadoop .
