대규모 스터디 3

검색이 가능하기 까지

처음은 검색할 대상 문서를 가져와야 한다.

대상 문서가 있다면 웹 크롤러를 만들어서 대량 문서를 가져오는 작업이 필요하다.

→ 가져온 문서를 어떻게 저장할 것인가 문제가 있다. 예를 들어 하나의 db에 저장하면 db가 장애날 경우 복원할 수 없다 따라서 분산 데이터 베이스에 저장해야 한다

가져온 문서로부터 인덱스를 구축하는 것이 필요하다

가져온 문서가 얼마나 정확한지 평가하는 랭킹이 필요하다