Olá! Sejam bem-vindes ao curso de classificação entendendo modelos tradicionais.
Eu sou Mariana, cientista de dados, professora e instrutora aqui na Alura, apaixonada por tudo o que envolve o mundo dos dados, e estarei com vocês ao longo deste curso.
O que vamos aprender aqui? Nós vamos construir nosso primeiro modelo de classificação do zero até disponibilizar nosso modelo via API REST (interface de programação de aplicações baseada em REST). Nós vamos compreender o que é um problema de classificação, conhecer e construir modelos a partir de três algoritmos clássicos de classificação e montar um pipeline (fluxo de trabalho) completo de machine learning (aprendizado de máquina) orientado ao problema de classificação, desde a formulação do problema até a análise exploratória dos dados, a preparação dos dados, o treinamento, a avaliação e a otimização. Por fim, nós vamos disponibilizar o modelo via API REST (interface de programação de aplicações baseada em REST).
O mais interessante é que nós vamos aprender a utilizar AIs (inteligências artificiais) como apoio em nosso processo de desenvolvimento de modelos. Há um ponto importante: nós não vamos desenvolver os modelos trabalhando cada algoritmo com um conjunto de dados separadamente. Nós vamos aprender a solucionar um problema. Nós vamos simular uma situação, um cenário do mundo real, para que desenvolvamos de fato um produto de dados.
Nosso cenário é o seguinte: a Analytic Solutions foi contratada por uma instituição financeira que deseja tornar suas campanhas de marketing mais eficientes.
Na instituição bancária em questão, já existe um esquema de campanhas e ações de divulgação de serviços. Entretanto, percebeu-se que a estratégia é pouco eficaz: as campanhas de marketing atingem muitos clientes, mas a maioria não aceita as ofertas. Isso eleva os custos das campanhas e reduz a taxa de conversão, ou seja, o percentual de clientes contatados que de fato aceitam a oferta.
Diante desse cenário, a instituição deseja utilizar dados históricos de clientes para identificar, com antecedência, quais clientes têm maior probabilidade de aceitar uma campanha do banco.
Fomos contratados, na empresa em que atuamos como pessoas cientistas de dados, para desenvolver um modelo de classificação capaz de prever se um cliente vai aceitar ou não a oferta apresentada em uma determinada campanha de marketing.
Com base nisso, desejamos identificar:
Assim, definimos nosso problema de negócio: como identificar, com antecedência, quais clientes têm maior probabilidade de aceitar as ofertas do banco a partir das campanhas de marketing.
Uma vez compreendido o cenário, vamos identificar o que é classificação. Este curso é orientado à classificação, mas o que é, de fato, classificação? É isso que veremos no próximo vídeo. Nos vemos lá!
Olá, como estão? Boas-vindas ao nosso vídeo, no qual vamos aprender o que é classificação.
Já sabemos qual é o nosso problema de negócio: identificar antecipadamente quais pessoas clientes têm maior probabilidade de aderir a uma campanha bancária, isto é, a uma oferta do banco. Agora, vamos compreender em que tipo de problema esse desafio se encaixa. Diante desse problema de negócio, qual algoritmo devemos utilizar? Qual modelo vamos produzir?
Para isso, precisamos entender que o aprendizado de máquina possui diferentes enfoques para construir o modelo de predição. Um desses enfoques é o aprendizado supervisionado.
Como funciona esse enfoque? O modelo aprende a partir de exemplos rotulados, ou seja, dados de entrada cuja resposta correta já é conhecida. No nosso cenário, a instituição bancária nos fornecerá o histórico de pessoas clientes, com suas informações e com uma variável específica que indica se a pessoa cliente aderiu ou não a alguma campanha de marketing, alguma oferta do banco. Temos, portanto, as características das pessoas clientes e a variável resposta, que é o que queremos prever. Com esse cenário, estamos no contexto do aprendizado supervisionado.
Como ocorre o treinamento? Temos dados de entrada rotulados. A partir desses dados, o modelo gera uma saída — no nosso caso, se a pessoa cliente aderiu ou não à campanha. Obteremos um valor previsto, e também temos o valor real presente no histórico. Realizamos a comparação entre ambos, e o algoritmo ajusta as configurações do modelo, isto é, ajusta os hiperparâmetros, para identificar cada vez melhor as pessoas clientes. Assim, teremos a Y predita (a variável prevista) e a Y real (a variável observada nos dados rotulados), e executaremos esse processo iterativo de ajuste das configurações do modelo.
No aprendizado supervisionado, há dois tipos de tarefa: regressão e classificação. Este curso está focado na tarefa de classificação, mas vamos entender a diferença entre elas.
Na tarefa de regressão, queremos prever um valor numérico contínuo, isto é, quantificar. Por exemplo, se o nosso problema de negócio fosse prever quanto de receita o banco vai receber a partir de uma determinada campanha de marketing, estaríamos interessados em um valor monetário. Quantificar caracteriza um problema de regressão.
Na classificação, como o nome sugere, queremos qualificar, identificar a categoria. No nosso caso, queremos encontrar as pessoas clientes que aderem ou não à campanha bancária. Temos a categoria de quem aderiu e a categoria de quem não aderiu. Esse tipo de problema, em que queremos prever um valor discreto em um conjunto fechado de categorias, é denominado classificação. Em regressão, buscamos quantificar; em classificação, buscamos qualificar e categorizar.
A classificação é a tarefa de aprendizado de máquina cujo objetivo é prever uma categoria. Antes de avançarmos para os tipos, vamos apresentar alguns exemplos.
Em nosso caso, podemos classificar se um cliente vai aderir ou não a uma campanha, classificar e-mails como spam (mensagem indesejada) ou não spam. Temos duas categorias: spam e não spam. Em fraude bancária, analisamos uma transação específica e identificamos se é fraude ou não é fraude. Também são duas classes; é outro exemplo de classificação.
No mundo real, existem diversos problemas de classificação. Nossos algoritmos de classificação são projetados para gerar modelos que solucionem esse tipo de problema.
Agora, passemos aos tipos de classificação. A classificação pode ser dividida, por exemplo, em classificação binária, na qual categorizamos apenas em dois tipos, como spam/não spam e fraude/não fraude. Esse é o tipo de classificação binária.
Também existe a classificação multiclasse, que, em vez de ter duas classes, tem três, quatro ou mais. Por exemplo, podemos querer identificar tipos de campanha de marketing (mercadologia): campanhas mais orientadas ao tema investimento, investimento imobiliário, campanhas dirigidas a pessoas que possuem cartão de crédito — uma classe distinta das pessoas investidoras —, e campanhas voltadas a quem possui empréstimos ou algum acordo com o banco. Nesse caso, há mais de um tipo de classe; esse é o problema multiclasse.
E o multilabel (múltiplos rótulos)? O multilabel ocorre quando um registro pode ser classificado em mais de uma classe. Na classificação binária e na multiclasse, cada registro pertence a apenas uma classe. No multilabel, um registro pode pertencer a mais de uma classe. Por exemplo, pensando no tipo de campanha, a campanha pode ser direcionada a pessoas corretoras e, ao mesmo tempo, a pessoas corretoras iniciantes que também são investidoras. Assim, temos um registro — a campanha bancária — que pode ter, simultaneamente, três categorias. Esse é o tipo multilabel.
Por que isso é importante? O tipo de problema influencia os modelos que utilizamos. Existem algoritmos muito bons para multilabel, enquanto outros não apresentam bom desempenho nesse cenário. O entendimento do tipo de classificação é essencial para a escolha das métricas de avaliação e, sobretudo, para as estratégias de treinamento: como será realizado o processo de treinamento. Saber distinguir qual tipo de classificação se encaixa no problema de negócio é de extrema importância.
No nosso cenário — e já demos vários spoilers (antecipações) ao longo do vídeo —, queremos prever a adesão de um cliente a uma campanha de marketing. A saída é adesão ou não adesão. São duas saídas: adere ou não adere. Portanto, temos um problema de classificação binária.
É um problema supervisionado, pois, sendo um problema de classificação, é supervisionado. Além disso, o banco nos fornecerá registros históricos de clientes com suas características e a informação de se já aderiram ou não a alguma campanha ou oferta do banco. Estamos, então, diante de um problema de aprendizagem supervisionada, porque trabalhamos com dados rotulados. É um problema de classificação, porque queremos prever categorias. E é um problema de classificação binária, porque são duas categorias a serem previstas.
Agora que já sabemos qual é o tipo do nosso problema — classificação binária —, vamos compreender a visão geral do nosso pipeline (fluxo) de aprendizagem automática. Qual será o passo a passo daqui em diante?
Eu te espero no próximo vídeo.
Olá a todas as pessoas, como estão? Bem-vindas e bem-vindos ao último vídeo da Aula 1, no qual teremos uma visão geral de um pipeline (fluxo de processamento) de machine learning (aprendizado de máquina), com foco em problemas de classificação.
Para relembrar nosso problema de negócio: como identificar antecipadamente quais pessoas clientes têm maior probabilidade de aceitar a oferta do banco. Esse é nosso problema. Já sabemos o que é uma tarefa de classificação; agora vamos entender como construiremos nosso modelo de classificação.
No mercado de trabalho, dificilmente começamos a desenvolver o problema diretamente a partir do algoritmo. Não pegamos os dados brutos — nosso histórico, fornecido pelo banco — e os colocamos diretamente no algoritmo para gerar o modelo. Não é assim que funciona. Existe um passo a passo e um conjunto de boas práticas para que possamos, de fato, construir modelos de predição eficientes. A esse passo a passo chamamos de pipeline (fluxo de processamento) de machine learning (aprendizado de máquina).
Um pipeline (fluxo de processamento) é uma sequência de etapas que transformará nossos dados — o histórico de pessoas clientes que receberemos do banco — em uma solução, que é nossa API (interface de programação de aplicações) responsável por prever se uma pessoa cliente aceitará ou não uma oferta do banco. Cada etapa é de extrema importância e depende da etapa anterior.
Neste momento, estamos apresentando uma visão geral. Poderíamos detalhar mais esse pipeline (fluxo de processamento), mas, de forma geral, este é um pipeline (fluxo de processamento) orientado à classificação.
A primeira etapa é a etapa dos dados. Recebemos os dados da nossa instituição financeira e precisamos conhecê-los. Como vamos construir um algoritmo, ou escolher o melhor algoritmo, se não sabemos com o que estamos trabalhando? Precisamos conhecer nossos dados e realizar o que chamamos de análise exploratória: vamos explorar e identificar quais são as características dos dados. Há um conjunto de abordagens, como análise univariada e análise multivariada, e vamos aprender a utilizar a IA para otimizar nosso processo de análise exploratória.
Depois de conhecer os dados, não podemos simplesmente inseri-los em nossos algoritmos, porque os dados brutos vêm do mundo real e, muitas vezes, contêm valores nulos e valores inconsistentes. Por isso, eles precisam passar por uma etapa para ficarem coerentes e preparados, tornando-se dados de entrada adequados para os algoritmos. Essa etapa se chama preparação de dados. Vamos transformar os dados recebidos, que são dados brutos, em dados apropriados para o processo de treinamento.
Concluída a preparação dos dados, passamos à etapa de treinamento do modelo, a fase que chamamos de modelagem. Vamos modelar nosso problema.
Normalmente, escolhemos um algoritmo de baseline (linha de base), que é o algoritmo básico responsável por gerar os primeiros resultados e servir de referência. O baseline (linha de base) nos ajuda a selecionar outros algoritmos e a gerar modelos melhores do que ele.
Neste curso, desenvolveremos quatro modelos: o modelo de baseline (linha de base) e três modelos baseados nos algoritmos que vamos aprender ao longo das aulas. Concluída a modelagem, com os quatro modelos prontos, passamos para a fase de avaliação. O objetivo dessa etapa é responder: geramos quatro modelos, mas qual colocaremos em produção? Qual é o melhor deles? Faremos uma análise dos resultados utilizando métricas para identificar o desempenho dos modelos, compará-los e, de fato, definir o melhor.
Além da avaliação, existe a etapa de ajustes, em que buscamos melhorar o desempenho do modelo; é a fase de otimização do modelo. Com os quatro modelos em mãos e tendo escolhido o melhor, verificaremos se é possível aprimorá-lo. Também podemos aplicar otimização nos dois ou três melhores modelos para identificar, de forma conclusiva, qual será o modelo final que irá para a API (interface de programação de aplicações). Essa é a etapa de melhorias, em que realizamos ajustes para tornar o modelo mais eficiente.
Depois disso, exportaremos o modelo final e construiremos nossa solução: uma API (interface de programação de aplicações) capaz de receber novos dados de novas pessoas clientes e identificar se cada pessoa aceitará ou não a campanha.
Trata-se de um processo passo a passo, uma sequência de etapas. Começamos com dados brutos e terminamos com uma solução. É importante compreender que, no mundo real, passamos mais tempo no diagnóstico exploratório, na preparação e nos ajustes dos dados, para que, ao chegarmos à etapa de modelagem, já tenhamos dados adequados. Portanto, nós, como pessoas cientistas de dados, não simplesmente pegamos os dados e os colocamos como entrada no algoritmo. Existem critérios e um passo a passo para desenvolvermos uma solução eficiente.
Esse é o pipeline (fluxo de etapas) que vamos desenvolver ao longo do curso. Compreendido o passo a passo e o pipeline (fluxo de etapas), avançaremos para a etapa de preparação dos dados. Primeiro, entenderemos o que é a preparação dos dados e, em seguida, partiremos para a prática, em que conheceremos nossos dados por meio da análise exploratória e os prepararemos para as próximas etapas.
Eu te espero na próxima aula.
O curso Classificação: entendendo os modelos tradicionais de ML possui 227 minutos de vídeos, em um total de 60 atividades. Gostou? Conheça nossos outros cursos de Machine Learning em Data Science, ou leia nossos artigos de Data Science.
Matricule-se e comece a estudar com a gente hoje! Conheça outros tópicos abordados durante o curso:
O Plano Plus evoluiu: agora com Luri para impulsionar sua carreira com os melhores cursos e acesso à maior comunidade tech.
2 anos de Alura
Matricule-se no plano PLUS 24 e garanta:
Jornada de estudos progressiva que te guia desde os fundamentos até a atuação prática. Você acompanha sua evolução, entende os próximos passos e se aprofunda nos conteúdos com quem é referência no mercado.
Programação, Data Science, Front-end, DevOps, Mobile, Inovação & Gestão, UX & Design, Inteligência Artificial
Formações com mais de 1500 cursos atualizados e novos lançamentos semanais, em Programação, Inteligência Artificial, Front-end, UX & Design, Data Science, Mobile, DevOps e Inovação & Gestão.
A cada curso ou formação concluído, um novo certificado para turbinar seu currículo e LinkedIn.
Acesso à inteligência artificial da Alura.
No Discord, você participa de eventos exclusivos, pode tirar dúvidas em estudos colaborativos e ainda conta com mentorias em grupo com especialistas de diversas áreas.
Faça parte da maior comunidade Dev do país e crie conexões com mais de 120 mil pessoas no Discord.
Acesso ilimitado ao catálogo de Imersões da Alura para praticar conhecimentos em diferentes áreas.
Explore um universo de possibilidades na palma da sua mão. Baixe as aulas para assistir offline, onde e quando quiser.
Luri Vision chegou no Plano Pro: a IA da Alura que enxerga suas dúvidas, acelera seu aprendizado e conta também com o Alura Língua que prepara você para competir no mercado internacional.
2 anos de Alura
Todos os benefícios do PLUS 24 e mais vantagens exclusivas:
Chat, busca, exercícios abertos, revisão de aula, geração de legenda para certificado.
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais.
Aprenda um novo idioma e expanda seus horizontes profissionais. Cursos de Inglês, Espanhol e Inglês para Devs, 100% focado em tecnologia.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Para quem quer atingir seus objetivos mais rápido: Luri Vision ilimitado, vagas de emprego exclusivas e mentorias para acelerar cada etapa da jornada.
2 anos de Alura
Todos os benefícios do PRO 24 e mais vantagens exclusivas:
Catálogo de tecnologia para quem é da área de Marketing
Envie imagens para a Luri e ela te ajuda a solucionar problemas, identificar erros, esclarecer gráficos, analisar design e muito mais de forma ilimitada.
Escolha os ebooks da Casa do Código, a editora da Alura, que apoiarão a sua jornada de aprendizado para sempre.
Conecte-se ao mercado com mentoria individual personalizada, vagas exclusivas e networking estratégico que impulsionam sua carreira tech para o próximo nível.