Vowpal Wabbit – 1, 2, 3, Testando…

Se você está chegando agora leia antes nosso artigo Vowpal Wabbit – Uma breve introdução para entender como chegamos aqui. Mas, se você já leu ou deseja começar por aqui (por sua conta e risco) sigam-me os bons!

Como vimos, uma features é uma característica. Como o algoritmo do VW trabalha com petafeatures podemos ter inúmeras delas.

Os modelos são simplificações da realidades, nesse caso podemos presumir que:

Dados brutos -> Features, Label

F(features) = Label

O cálculo é basicamente o somatório dos pesos multiplicados pelos valores das features.

Mas, como criar o modelo preditivo?

O VW possui um modelo de entrada bastante flexível

[Label][Importance [Tag]]|Namespace Features |Namespace Feature …

onde:

Namespace = String[:Value] (Pacotes de features relacionadas – Agrupamento)

Features = String[:Value])* (Características)

Distribuição dos dados de entrada

2.025305865 |dados_cliente data_cadastro=30_09_2013 dias_cadastro:30.0 mes_cadastro=Setembro idade:24.0 cidade=passo_fundo estado=rs data_nascimento=1990_07_02 recebe_email_mkt:1.0 |dados_Compras data_primeira_compra=14_01_2014 qtde_degustacao_anterioes:4.0

(http://hunch.net/~vw/validate.html)

Label Namespace  Feature Valor

Cada registro ocupa uma linha do arquivo que pode, ou não, ter o mesmo número de feature. Quando não se valora uma feature automaticamente ela recebe o valor 1.0

Após criar o arquivo com os dados será a hora de acessar o VW e realizarmos os treinamento. Ainda não tem ele? Acesse este link (https://github.com/JohnLangford/vowpal_wabbit/tags) e baixe o pacote com a versão mais recente.

Como o VW é para linux, utilizaremos um emulador para terminal. Baixe o Cygwin (https://cygwin.com/install.html).

cgywin

Use a opção “Select Packages” na janela seguinte e instale os seguintes pacotes:

  • Pesquise por "git". Em Devel selecione git: Distributed version control system
  • Pesquise por "make". Em Devel selecione make: the GNU version of the 'make' utility
  • Pesquise por "g++". Em Devel selecione gcc-g++ GNU compiler Collection (C++)
  • Pesquise por "zlib". Em  Libs selecione zlib-devel: Zlib de/compression library (development)
  • Pesquise por "boost". Em Libs selecione libboost-devel: Boost C++ Libraries
  • Pesquise por "libtool". Em Devel selecione libtool: Generic library support script
  • Pesquise por "automake". Em  Devel selecione automake: Wrapper scripts for automake and aclocal.
  • Pesquise por "automake". Em Devel selecione automake1.9: (1.9) a tool for generating GNU-compliant Makefiles.
  • Pesquise por "libboost". Em Libs selecione libboost_python-devel: Boost C++ libraries
  • Pesquise por "libboost". Em Libs selecione libboost_program_options1.55: Boost C++ libraries

Caso apareça a mensagem “Resolving Dependancies” marque a opção “Select required packpages (RECOMMENDED).

Instalando o Vowpal Wabbit

Abra o prompt de comando com cmd e execute o Cygwin.bat. Se você instalou no drive C: digite o seguinte:
C:\cygwin64\cygwin.bat
ou vá até o diretório e clique em cygwin.bat (A extensão do arquivo pode estar oculta).

Agora, clone o conteudo do VW que está no github do John Langford:

git clone git://github.com/JohnLangford/vowpal_wabbit.git

Isso iniciará o download. Quando concluir, digite ls para listar os diretórios. Vá até o diretório vowpal_wabbit:

cd vowpal_wabbit

e execute:

./autogen.sh
E depois que concluir execute os comandos:
make
make install

Se você instalou no C:, em cywin64, no Windows você pode ir em:

C:\cygwin64\home\your_username\vowpal_wabbit\vowpalwabbit

Para iniciar , verifique se há datasets na pasta data. E execute:

./vw -d /cygdrive/c/data/train.vw

No próximo artigo rodaremos alguns testes. Até lá!

Comments

comments

Você também pode gostar...