Entregar para Aline Jamas um sistema funcional que:
| Milestone | Status | Notas |
|---|---|---|
| Research de scrapers e anti-bot | ✅ Done | TripAdvisor = Cloudflare 403, Google Maps = OK |
| Arquitetura do pipeline | ✅ Done | 3 fases: Scrape → NLP → Visualize |
| Codigo dos scrapers | ✅ Done | 3 scrapers Playwright + config |
| Pipeline NLP | ✅ Done | VADER, LDA, TF-IDF, n-grams, aspect-based |
| Proof of concept | ✅ Done | 18 reviews Google Maps extraidas |
| Documento do processo | ✅ Done | output/process_document.html |
| Loom explicativo | ✅ Done | Gravado e enviado para Aline |
| Scraping em escala | 🟡 Aline | Usar Apify ou omkarcloud/tripadvisor-scraper |
| Analise completa | 🟡 Aline | Rodar pipeline com dataset completo |
| 9 HTMLs academicos | 🟡 Aline | Gerar apos analise |
Aline Jamas enviou audio pelo WhatsApp pedindo ajuda para analisar ~1.000 avaliacoes de tours em favelas do RJ. Ela estava lendo uma por uma e precisava de eficiencia. Caio Ferreira recebeu, identificou como um problema de web-scraping + NLP, e usou Claude Code (Opus 4.6) para projetar e construir a solucao numa unica sessao.
| Pessoa | Papel | Contexto |
|---|---|---|
| Aline Jamas | Pesquisadora / dona do TCC | Dual-degree Tourism + Business, UCM Madrid. Treasury Intern na Schneider Electric. |
| Caio Ferreira | Arquiteto da solucao | Usou Claude Code como pair-programmer para construir o pipeline |
| Plataforma | Anti-Bot | Reviews Est. | Abordagem |
|---|---|---|---|
| TripAdvisor | 🔴 Alto (Cloudflare) | 1.500–2.500 | Apify API ou Botasaurus |
| Google Maps | 🟡 Medio | 500–1.000 | Playwright + scroll |
| GetYourGuide | 🟢 Baixo | 300–500 | Playwright / requests |
TripAdvisor bloqueia headless browsers: HTTP 403 em todas as 7 URLs testadas. Solucao: Apify free tier ($5/mes para ~1.600 reviews) ou omkarcloud/tripadvisor-scraper com Botasaurus.
Google Maps funciona com Playwright puro: 18 reviews extraidas no primeiro teste. Sem necessidade de proxy ou API paga.
Pipeline NLP pronto para rodar: VADER sentiment, LDA topic modeling (6-8 topicos), TF-IDF, bigrams/trigrams, aspect-based analysis em 7 dimensoes: safety, guide quality, authenticity, value, education, ethics, logistics.
Aline importa a pasta aline-favela-reviews/ no Claude Code, orienta a instancia a resolver o bloqueio do TripAdvisor (via Apify ou Botasaurus), rodar o pipeline NLP, e gerar os 9 HTMLs academicos.
Aline usa a interface do Apify para rodar o scraper via API (pago), exporta CSV, importa no claude.ai web, e solicita analise + formatacao do output direto na conversa.
| Tour | ID | Reviews Est. |
|---|---|---|
| Favela Tour — Marcelo Armstrong | d1637149 | ~592 |
| Favela Walking Tour | d4713859 | ~200+ |
| Favela Top Tour | d9697057 | ~150+ |
| Favela Santa Marta Tour | d3546152 | ~200+ |
| Favela Adventures | d2072887 | ~300+ |