📦

Favela Tour Scraper

Reputation Analysis for TCC — Pipeline automatizado de web scraping + NLP
Caio Ferreira · Abril 2026 · Archived
WEB-SCRAPING NLP PYTHON TOURISM ARCHIVED

Objetivo

O que este projeto faz

Entregar para Aline Jamas um sistema funcional que:

  1. Raspa todas as avaliacoes em ingles de tours em favelas do Rio de Janeiro no TripAdvisor, Google Maps e GetYourGuide
  2. Analisa os textos com NLP (sentiment, topics, aspects, n-grams) para encontrar padroes
  3. Gera visualizacoes academicas (9 HTMLs com Chart.js) no padrao ouro para TCC

Progresso

Status dos Milestones

MilestoneStatusNotas
Research de scrapers e anti-bot✅ DoneTripAdvisor = Cloudflare 403, Google Maps = OK
Arquitetura do pipeline✅ Done3 fases: Scrape → NLP → Visualize
Codigo dos scrapers✅ Done3 scrapers Playwright + config
Pipeline NLP✅ DoneVADER, LDA, TF-IDF, n-grams, aspect-based
Proof of concept✅ Done18 reviews Google Maps extraidas
Documento do processo✅ Doneoutput/process_document.html
Loom explicativo✅ DoneGravado e enviado para Aline
Scraping em escala🟡 AlineUsar Apify ou omkarcloud/tripadvisor-scraper
Analise completa🟡 AlineRodar pipeline com dataset completo
9 HTMLs academicos🟡 AlineGerar apos analise

Contexto

Origem do Projeto

Aline Jamas enviou audio pelo WhatsApp pedindo ajuda para analisar ~1.000 avaliacoes de tours em favelas do RJ. Ela estava lendo uma por uma e precisava de eficiencia. Caio Ferreira recebeu, identificou como um problema de web-scraping + NLP, e usou Claude Code (Opus 4.6) para projetar e construir a solucao numa unica sessao.

Pessoas

PessoaPapelContexto
Aline JamasPesquisadora / dona do TCCDual-degree Tourism + Business, UCM Madrid. Treasury Intern na Schneider Electric.
Caio FerreiraArquiteto da solucaoUsou Claude Code como pair-programmer para construir o pipeline

Plataformas

Plataformas-Alvo

PlataformaAnti-BotReviews Est.Abordagem
TripAdvisor🔴 Alto (Cloudflare)1.500–2.500Apify API ou Botasaurus
Google Maps🟡 Medio500–1.000Playwright + scroll
GetYourGuide🟢 Baixo300–500Playwright / requests

Descobertas

Descobertas-Chave

TripAdvisor bloqueia headless browsers: HTTP 403 em todas as 7 URLs testadas. Solucao: Apify free tier ($5/mes para ~1.600 reviews) ou omkarcloud/tripadvisor-scraper com Botasaurus.

Google Maps funciona com Playwright puro: 18 reviews extraidas no primeiro teste. Sem necessidade de proxy ou API paga.

Pipeline NLP pronto para rodar: VADER sentiment, LDA topic modeling (6-8 topicos), TF-IDF, bigrams/trigrams, aspect-based analysis em 7 dimensoes: safety, guide quality, authenticity, value, education, ethics, logistics.


Proximos Passos

Duas Vias para Aline Finalizar

Via 1: Claude Code + Projeto Local

Aline importa a pasta aline-favela-reviews/ no Claude Code, orienta a instancia a resolver o bloqueio do TripAdvisor (via Apify ou Botasaurus), rodar o pipeline NLP, e gerar os 9 HTMLs academicos.

Via 2: Apify UI + Claude.ai Web

Aline usa a interface do Apify para rodar o scraper via API (pago), exporta CSV, importa no claude.ai web, e solicita analise + formatacao do output direto na conversa.


Tours Identificados

Tours-Alvo no TripAdvisor

TourIDReviews Est.
Favela Tour — Marcelo Armstrongd1637149~592
Favela Walking Tourd4713859~200+
Favela Top Tourd9697057~150+
Favela Santa Marta Tourd3546152~200+
Favela Adventuresd2072887~300+

Links Externos