Por: Pedro Victor
A entrevista da printf desta vez será realizada com Marcello Hasegawa, ele é cientista de dados na Microsoft, em Redmond/WA, nos EUA. Ele se graduou em Física pela USP e fez mestrado em física teórica pelo ITA. Marcello trabalhou anteriormente na indústria aeroespacial, desenvolvendo software para simulação e projeto de aeronaves. Na Microsoft desde 2008, colaborou no desenvolvimento de diversas versões do Windows e trabalhou também no Bing Ads.
1)printf: Você poderia começar nos contando um pouco sobre sua carreira e experiência profissional?
Marcello: Nos últimos 12 anos, eu trabalhei com pesquisa aplicada, desenvolvimento de software em larga escala, serviços online, análise de dados, estatística aplicada e machine learning. Durante este tempo, eu participei de um projeto de longa duração que envolveu a Embraer e a USP de São Carlos, trabalhei no desenvolvimento de três versões do Windows Server e do Windows na Microsoft, trabalhei no Bing Ads e agora trabalho num time focado em “data science” para o Windows, Windows Phone e Xbox.
2)printf: Qual seu principal objetivo e foco de atuação atualmente?
Marcello: Eu atuo principalmente na área de “text mining”, análise automática e classificação de texto e problemas relacionados a inferência estatística. Meu trabalho envolve o desenvolvimento de soluções, a construção de protótipos, a prospecção e o desenvolvimento de novos métodos e a avaliação de resultados de pesquisa como soluções para problemas práticos.
3)printf: Para você, o que é Big Data?
Marcello: Existem várias definições para Big Data e todas parecem ter um pouco de certo e um pouco de espaço para serem questionadas. Eu gosto de pensar em Big Data sob a perspectiva de aplicações. Acho difícil tentar definir limites e tamanhos. Eu acho que uma característica importante é o alto nível de sofisticação das análises, aplicações e serviços resultantes. Os dados em geral são de altíssima granularidade e as infraestruturas são baseadas em sistemas distribuídos. Os problemas na área de Big Data geralmente envolvem soluções dedicadas e desafios técnicos.
4)printf: Poderia citar alguns exemplos de uso e aplicação dessa tecnologia?
Marcello: Aplicações web usam dados extrememamente granulares para melhoria do serviço. Isso pode ocorrer tanto como parte do próprio serviço, por exemplo estes dados poderiam alimentar modelos preditivos, como produzindo informações que ajudem na tomada de decisões. Aplicações em marketing como segmentação de usuários também são comuns.
5)printf: O que diferencia Big Data das tecnologias tradicionais de armazenamento (bases relacionais, data warehousing, etc.)?
Marcello: As soluções costumam ser heterogêneas. Tipicamente em um ambiente onde se tem alguma solução map-reduce, por exemplo, você também vai encontrar um banco de dados relacional, tecnologia semelhante ou até um cubo OLAP em alguma parte da solução. Acho difícil traçar uma linha baseada na tecnologia adotada.
6)printf: Quais são seus pensamentos sobre linguagens NoSQL e Big Data?
Marcello: Não acho que uma tecnologia específica deva definir o que é Big Data. Acho que as as soluções estão mais ligadas a áreas específicas e, principalmente, ao conjunto de soluções tipicamente usado em cada área. Por exemplo, está cada vez mais comum ver aplicações web usando MongoDB e Node.JS junto com algum framework, mas isso não quer dizer que você tenha uma aplicação de Big Data. Assim como você pode fazer Big Data usando um banco de dados relacional em alguma parte do sistema.
7)printf: Quais são os principais desafios ao se lidar com Big Data?
Marcello: Lidar com diversas fontes de dados, entender os diferentes aspectos dos dados e se adaptar à evolução destes dados são desafios comuns a qualquer área relacionada com análise e utilização de dados. Somado a estes aspectos, considere o volume, o problema de gerenciar o ciclo de vida dos dados e aspectos legais e de segurança. Depois disso, existe a necessidade de uma infraestrutura diferenciada e a tecnologia envolvida. Os problemas são diversos dependendo da área de aplicação.
8)printf: O que você vê no futuro do Big Data?
Marcello: Eu vejo esta área crescendo e amadurecendo. Principalmente no Brasil, eu acredito que a mudança cultural deva surgir primeiro nas pequenas e médias empresas, mais próximas a áreas de tecnologia. Com a rotatividade dos profissionais no mercado e a pressão competitiva, a cultura do Big Data deverá se disseminar nos segmentos mais tradicionais. Dito isso, algumas empresas grandes parecem já estar investindo mais seriamente na área.
9)printf: O mercado já procura por profissionais especializados nessa área? Qual(is) o(s) principal(is) cargo(s) e o que é requisitado desses profissionais?
Marcello: Nos Estados Unidos, basta olhar em qualquer site de empregos para se ter uma noção de como esta área é importante e está crescendo. No Brasil, o crescimento ainda parece ser modesto, mas algumas oportunidades estão aparecendo, principalmente a partir de 2013, até onde tenho acompanhado. Acho que o profissional mais citado na área é o Cientista de Dados. Um Cientista de Dados é um profissional que tem um bom conhecimento em Ciências da Computação, Estatística e “Machine Learning”, mas também tem um conhecimento diversificado em outras áreas. Um bom Cientista de Dados carrega uma mistura de experiência em engenharia e ciências aplicadas. Outros pontos importantes são criatividade, vontade e habilidade de aprender coisas novas com rapidez, atenção aos detalhes e foco em resolver problemas práticos. Comunicação também é um traço essencial. Com a dificuldade de se encontrar um profissional com todas essas características, parece que uma tendência é o surgimento de times de profissionais com habilidades complementares.
10)printf: Algum comentário final ou dica para quem pretende seguir essa área, tanto academicamente quanto no ramo industrial?
Marcello: Eu acho importante uma formação acadêmica sólida e um pouco de experiência através de projetos, estágios ou até mesmo “hackathons” e competições online. O nível de sofisticação dos problemas encontrados na área exigem metodologia e criatividade. São problemas de engenharia e ciência aplicada com foco em resultados práticos. Os desafios encontrados neste tipo de problemas, em geral, são bem mais complexos do que problemas encontrados em situações mais controladas, onde algumas restrições e aproximações são aceitáveis. Também é importante se manter informado sobre o que está acontecendo no mundo acadêmico e na indústria. Finalmente, interagir com profissionais da área é uma dica interessante. Uma sugestão é dar uma olhada no grupo do Linkedin “Big Data & Machine Learning no Brasil”. O grupo em geral tem artigos bem interessantes e, cada vez com mais frequência, tem aparecido anúncios de vagas na área de Big Data, “Data Science” e “Machine Learning”.