티스토리 뷰

목차


    Cloudflare는 전 세계 300개 이상의 데이터센터에서 트래픽을 분산해 웹사이트의 속도와 안정성을 높여주는 서비스지만, 구조가 복잡한 만큼 설정 오류·서버 문제·SSL 충돌·네트워크 지연 등 다양한 이유로 사이트가 순간적으로 다운되거나 접속 지연이 발생할 수 있다.

    이 글은 장애 발생 시 “무엇을 먼저 확인하고 어떻게 복구해야 하는지”를 빠르게 판단할 수 있도록 원인 분석 → 조치 순서 → 복구 전략 → 예방 구조로 구성했다.


    1. 클라우드플레어 장애가 발생하는 핵심 원인 5가지

    장애 원인을 파악할 때는 Cloudflare 자체 문제보다 클라우드플레어와 오리진 서버 사이의 구간을 먼저 보아야 한다. 대부분의 접속장애는 아래 5가지 범주 중 한 곳에서 발생한다.

    ① 오리진 서버 불안정

    • CPU·메모리 부족
    • Nginx/Apache 중단
    • DB 과부하 또는 연결 지연
    • 워드프레스 플러그인 오류

    ② SSL 설정 불일치

    SSL 모드(Flexible/Full/Strict)와 서버 인증서가 맞지 않으면 525·526 오류가 즉시 발생한다.

    ③ DNS 설정 문제

    • A레코드 IP 오입력
    • 네임서버 전파 지연
    • www 레코드 연결 오류
    • 프록시(구름) 설정 불일치

    ④ 방화벽·보안 정책 충돌

    Fail2Ban, CSF, 또는 호스팅사 보안 장비가 Cloudflare IP 대역을 차단하는 경우 접속이 즉시 끊긴다.

    ⑤ Cloudflare 데이터센터 간 라우팅 문제

    특정 국가 또는 통신사가 Cloudflare PoP에 정상 연결하지 못할 때도 일부 사용자에게만 장애가 발생한다.


    2. 장애 발생 시 가장 빠른 복구 절차

    아래 6단계를 순서대로 따르면 어떤 오류 코드든 정확한 원인을 찾는 데 도움이 된다.

    1. 오류 코드 확인 (520~526, 1016 등)
    2. 오리진 서버 상태 점검(CPU·RAM·웹서버·DB)
    3. DNS 레코드 및 네임서버 확인
    4. SSL 인증서 및 모드 불일치 검출
    5. 방화벽 로그에서 Cloudflare IP 차단 여부 확인
    6. 라우팅 테스트(cf-trace, ping, traceroute)

    모든 Cloudflare 장애는 이 6단계 중 한 곳에서 원인이 드러난다.

    📌 1) 오류 코드별 즉시 복구법 요약

    오류 코드 의미 즉시 조치
    520 서버 비정상 응답 서버 로그 확인, Cloudflare IP 허용
    521 웹서버 응답 없음 웹서버 재시작, 80/443 포트 확인
    522 서버 응답 지연 PHP-FPM·DB 튜닝
    523 DNS/라우팅 문제 A레코드 재확인, 서버 IP 확인
    524 처리 시간 초과 타임아웃 증가, DB·API 응답 개선
    525 SSL 핸드셰이크 오류 Origin Cert 설치, Full Strict 적용
    526 인증서 무효 인증서 재설치, SAN 확인

    3. 장애 원인을 빠르게 좁히는 진단 흐름도

    Cloudflare 장애는 보통 다음 여섯 구간 중 하나에서 문제가 생긴다.

    1) 사용자 → Cloudflare
    • ISP 또는 지역 라우팅 문제

    2) Cloudflare PoP(데이터센터)
    • 일시적인 PoP 과부하

    3) Cloudflare 방화벽·보안 정책
    • Bot 보호 과잉
    • 국가 차단 우발적 발동

    4) Cloudflare → 오리진 서버
    • 연결 지연
    • 타임아웃

    5) 오리진 서버 애플리케이션
    • PHP, DB 오류

    6) 서버 OS/방화벽
    • Cloudflare IP 차단

    장애 구간을 좁히기만 해도 문제 해결 속도가 크게 단축된다.


    4. 접속장애를 줄이는 설정 전략

    1) 캐시 전략 고도화

    • 정적 파일(CSS·JS·이미지)은 완전 캐싱
    • API·로그인 세션은 캐싱 제외
    • Page Rule을 활용해 캐시 예외 설정

    2) SSL 환경 표준화

    • Full(Strict) + Origin Cert
    • Flexible SSL 절대 사용 금지
    • 인증서 자동 갱신 적용

    3) 서버 자원 관리

    • PHP-FPM worker 충분히 확보
    • DB 인덱스 주기적 점검
    • 서버 모니터링 도구 활성화(Netdata 등)

    5. 마무리: Cloudflare 장애는 패턴 이해가 핵심

    Cloudflare 장애는 복잡해 보이지만 대부분은 서버 응답 지연·SSL 불일치·DNS 오류라는 일정한 패턴 안에서 발생한다. 장애를 빠르게 해결하려면 오류 코드에만 집중하는 것이 아니라 서버–Cloudflare–사용자의 전체 흐름을 이해하는 것이 중요하다.

    위에서 제시한 조사 순서를 그대로 따라가면 대부분의 다운 문제는 수 분 내에 원인을 찾을 수 있다.