Article Image
read

title: Instale Apache spark + Hadoop en Windows Parte 1 Instalación de Hadoop

Instale Apache spark + Hadoop en Windows Parte 1 Instalación de Hadoop

Estoy comenzando en el mundo del bigdata y lo primero que hay que tener además de un poco de teoría es infraestructura para hacer algunos ejercicios e irse familiarizando, como soy usuario de Windows decidi instalar apache spark y hadoop en mi Windows 10, después de casi una semana de intentar, por fin lo he conseguido, el camino ha sido un poco tortuoso porque para instalar hadoop se deben compilar a algunos binarios en Windows, siempre esta la opción de descargarlos de algún sitio de alguien que que ya los ha compilado, sin embargo quería saber como generarlos, además así podre generarlos en futuras versiones de hadoop, mi primer intento de compilar fue hacerlo con el SDK de Windows 7.1 que trae los compiladores de 64bits, y que en teoria no exige que modifiques el código fuente (proyectos de visual studio de hadoop), pero no pude instalar el SDK satisfactoriamente debido a un problema de incompatibilidad con win 10, tengo entendido que los compiladores necesarios también vienen incluidos en el visual studio 2010 profesional (no en la versión express), pero tampoco pude descargar VS2010 porque al parecer dejo de estar disponible en el sitio de Microsoft, pero para no hacer mas larga mi triste historia (XD) te dejo los pasos que segui, al final use los compiladores que vienen con visual studio 2015 community edition, cygwin, además de otras herramientas y fixes que tuve que realizar durante el proceso, espero te pueda servir este tutorial, comencemos:

Instalación de dependencias

1. Descarga e instala JDK (Java Platform (JDK) 8u121)
2\. Descarga e instala [Scala](http://www.scala-lang.org/download/)
3\. Descarga e instala [Winpython](https://sourceforge.net/projects/winpython/files/WinPython_2.7/2.7.10.3/)
4\. Descarga e instala [CMake](https://cmake.org/download/) (Windows win64-x64 Installer)
5\. Descarga e instala [Cgwyn](https://cygwin.com/install.html) (setup-x86_64.exe) con las siguientes herramientas:
- Devel: binutils
- Devel: make, automake
- Interpreters: m4
- Utils: cpio - Base: gawk
- Interpreters: gawk
- Base: base-files, file
- Devel: file-devel
- Archive: zip, unzip
- Base: gzip
- System: procps
6\. Descarga [ProtocolBuffer](https://github.com/google/protobuf/releases/download/v2.5.0/protoc-2.5.0-win32.zip) 2.5.0
7\. Descarga [Maven](https://maven.apache.org/download.cgi) (apache-maven-3.3.9-bin.zip)
8\. Descarga [Apache Spark](http://spark.apache.org/downloads.html) 9\. Descarga [Hadoop](https://archive.apache.org/dist/hadoop/core/stable/)
10\. Descarga e instala visual studio 2015 community
Descomprime Hadoop, ProtocolBuffer, Maven y Apache Spark  en /usr/local de cgwyn (claro todo separado en sus respectivas carpetas)

Configurando entorno de Compilacion

Abre C:\cygwin64\Cygwin.bat y edítalo para agregar las variables de entorno necesarias, de modo que quede algo equivalente a esto:
@echo off
setlocal enableextensions
call "C:\Program Files (x86)\Microsoft Visual Studio 14.0\VC\bin\x86_amd64\vcvarsx86_amd64.bat"
set CMAKEH=D:\Program Files\CMake
set PATH=%CMAKEH%\bin;%PATH%
set TERM=
cd /d "%~dp0bin" && .\bash --login -i

Editamos \Home\.bashrc al final del archivo, debemos tener algo equivalente a esto:

export JAVA_HOME="C:/Program Files/Java/jdk1.8.0_121"
export M2_HOME=/usr/local/apache-maven-3.3.9
export HADOOP_PROTOC_PATH=/usr/local/bin  
export CMP_CMAKE_PATH=/usr/local/cmake

export PATH=$PATH:$JAVA_HOME/bin:$M2_HOME/bin:$HADOOP_PROTOC_PATH:/cygdrive/c/Windows/Microsoft.NET/Framework/v4.0.30319
export Platform=x64

Configurando Archivos para ser compilados Convierte los siguientes proyectos a VS2015 (Solo ábrelos con VS2015, deja que el asistente haga el trabajo, guarda cambios y cierra)

\usr\local\hadoop-x.x.x-src\hadoop-common-project\hadoop-common\src\main\winutils\winutils.sln
\usr\local\hadoop-x.x.x-src\hadoop-common-project\hadoop-common\src\main\native\native.sln

y edita \hadoop-hdfs-project\hadoop-hdfs\pom.xml, de la siguiente manera

 
(el parámetro "value" aplica a win32 - edítalo si quieres una versión de 32 bits).

Compilando

Ahora que tenemos todo listo procedemos al momento de la verdad, intentaremos compilar Abre Cygwin.bat con permisos de administrador posiciónate en la carpeta de Hadoop y ejecuta mvn compile, si todo sale bien tendras generados los binarios en cygwin64\usr\local\hadoop-2.7.3-src.tar\hadoop-2.7.3-src\hadoop-common-project\hadoop-common\target\bin Si algo sale mal lo sabras porque te arrojara un error, pero asumiendo que todo salio bien procede a ejecutar   mvn package -Pdist,native-win -DskipTests -Dtar y si todo salio bien ahora podras instalar apache Spark, no lo cubro en este post, espero poder hacerlo pronto. Saludos

Notas:

En el archivo .bashrc escribi que se debe agregar export CMP_CMAKE_PATH=/usr/local/cmake, primero prueba sin usar esta línea y si no funciona copia los binarios de CMake en \usr\local y entonces tendrá sentido usar ese export No usamos CMAKE de cgwyn porque no es compatible con Windows o algo asi je (pero creeme no funciona) Si te sale algún error acerca de maven Plugins tal vez tengas que instalarlo con:

cd hadoop-maven-plugins
$ mvn install

Este articulo me ayudo bastante a identificar errores, tal vez te pueda servir también Este otro articulo también es buenisimo

Blog Logo

Giovanni Crescencio Ahuactzi

Soy Gyo un blogero que disftruta de la tecnologia


Published

Image

Gyo&Joe

Blog personal de Gyo

Back to Overview