Bagaimana untuk menyelesaikan masalah 499 dan kegagalan mekanisme failover yang disebabkan oleh konfigurasi nginx yang tidak betul-Nginx-php.cn

Bagaimana untuk menyelesaikan masalah 499 dan kegagalan mekanisme failover yang disebabkan oleh konfigurasi nginx yang tidak betul

PHPz

Jun 02, 2023 pm 07:54 PM

nginxfailover

Maksud dan kemungkinan sebab 499

499 sebenarnya bukan kod status standard protokol HTTP, tetapi kod status tersuai nginx, yang tidak disertakan dalam Penjelasan yang jelas tentang kod status ini boleh didapati dalam dokumentasi nginx rasmi Berikut ialah penjelasan yang lebih profesional daripada catatan blog:

Ralat HTTP 499 hanya bermaksud bahawa klien ditutup. di tengah-tengah memproses permintaan melalui pelayan Kod ralat 499 menunjukkan bahawa sesuatu berlaku dengan klien, itulah sebabnya permintaan itu tidak dapat dilakukan. Jadi jangan risau: Kod respons HTTP 499 bukan salah anda semua.

Idea umum ialah 499 secara amnya bermakna pelanggan secara aktif menamatkan proses pemprosesan semasa permintaan HTTP masih diproses - memutuskan sambungan rangkaian yang sepadan 499 secara amnya bermakna beberapa masalah telah berlaku di sisi pelanggan dan tiada kaitan dengan pelayan.
Berikut ialah ulasan dalam kod sumber nginx:

/*
* HTTP does not define the code for the case when a client closed
* the connection while we are processing its request so we introduce
* own code to log such situation when a client has closed the connection
* before we even try to send the HTTP header to it
*/
#define NGX_HTTP_CLIENT_CLOSED_REQUEST     499

Ini bermakna nginx telah memperkenalkan kod tersuai 499 untuk merekodkan senario di mana nginx belum selesai memproses permintaannya apabila pelanggan memutuskan sambungan.
Mengimbas kembali bertahun-tahun yang lalu apabila saya mula-mula menghadapi senario 499, saya juga melihat jawapan yang sama apabila mencari maklumat di Internet Oleh itu, saya selalu berfikir bahawa 499 tidak ada kaitan dengan pelayan, dan semuanya harus disebabkan oleh klien.

Contoh tingkah laku proaktif pelanggan yang membawa kepada 499

Saya pernah menemui antara muka carian Lenovo, dan nisbah 499nya berpuluh-puluh kali lebih tinggi daripada API lain - lihat sahaja API ini mempunyai pada asasnya berada di atas ambang penggera untuk masa yang lama, dan kami juga telah menjejaki sebab khusus untuk anomalinya Akhirnya, kami bekerjasama dengan rakan kongsi pelanggan kami dan membuat kesimpulan: Ia adalah perkara biasa untuk nisbah 499 carian untuk antara muka Lenovo. menjadi tinggi, kerana:

Senario panggilan API ini ialah apabila pengguna memasukkan istilah carian dalam kotak carian Setiap kali pengguna memasukkan aksara, API akan serta-merta dipanggil dengan input terkini dan hasil persatuan yang dikembalikan akan dipaparkan kepada pengguna, dengan itu mencapai fungsi Carian hampir masa nyata Lenovo.
Memandangkan permintaan panggilan api terbaharu dicetuskan setiap kali pengguna memasukkan aksara baharu, walaupun jika permintaan panggilan sebelumnya masih berjalan, pelanggan harus menamatkannya secara langsung yang tidak mempunyai ciri praktikal kesan. Permintaan lama, yang ditunjukkan dalam log nginx, ialah 499 yang diputuskan secara aktif oleh pelanggan.

Jadi, walaupun carian untuk API Lenovo berbeza daripada API biasa dengan nisbah tinggi 499, ia adalah munasabah sepenuhnya untuk memutuskan sambungan, tetapi tidak melakukan sesuatu yang salah. Tiada masalah di bahagian pelayan.

Contoh gelagat pelanggan pasif yang menyebabkan 499

Contoh lain di mana gelagat pelanggan sebelum ini dipercayai menyebabkan 499 ialah kemuncak tolak Sesetengah pengguna mungkin membunuh apl serta-merta selepas membuka apl melalui push. Semasa tempoh tolakan puncak, tekanan pada pelayan biasanya agak tinggi, dan tindak balas itu sendiri akan menjadi lebih perlahan daripada semasa tempoh luar puncak Pada masa ini, beberapa permintaan API mungkin masih berjalan pada masa ini membunuh aplikasi - apl mati secara tidak adil dan tidak berdaya - dan sambungan yang sepadan secara semula jadi akan Ia telah diputuskan sambungan dan dikitar semula oleh OS, yang turut mengakibatkan 499. Dalam senario ini, tiada masalah pada bahagian pelayan.

Isu pelayan boleh menyebabkan 499?

Melalui kedua-dua contoh di atas, pada pandangan pertama, 499 adalah disebabkan oleh sisi pelanggan, sama ada tingkah laku aktif atau pasif samping.
Untuk meringkaskan kod ralat nginx yang mungkin disebabkan oleh ralat sebelah pelayan, senario utama hendaklah seperti berikut:

500: Ralat dalaman, biasanya parameter permintaan menyebabkan secara langsung utas pemprosesan hulu Ralat berlaku semasa melaksanakan kod atau rangka kerja perniagaan secara langsung mengembalikan Ralat Dalaman
502: Secara amnya, pelayan huluan hang terus dan tidak boleh disambungkan hulu, jadi ia mengembalikan Bad Gateway
503: Beban hulu terlalu tinggi--tetapi ia tidak tergantung dan kembali terus ke Perkhidmatan Tidak Tersedia
504: Permintaan pemprosesan huluan mengambil masa terlalu lama, dan masa nginx tamat sementara menunggu sehingga tamat masa Gateway kembali

Jadi, sama ada ia ralat pelaksanaan kod, perkhidmatan itu digantung. , perkhidmatan terlalu sibuk, atau pemprosesan permintaan mengambil masa terlalu lama dan permintaan HTTP gagal, 5XX akan dikembalikan dan tidak akan dicetuskan sama sekali.
Secara umumnya, ini memang berlaku, tetapi kali ini Pingfeng 499 baharu bukanlah situasi umum Semasa mencari maklumat di Internet, sesetengah orang telah mencadangkan bahawa nginx 499 mungkin disebabkan oleh pelayan yang mengambil masa terlalu lama. proses, menyebabkan pelanggan secara aktif memutuskan sambungan selepas tamat masa Ya, tetapi keadaan ini tidak sepatutnya tergolong dalam senario 4 mengikut penerangan di atas-hulu mengambil masa terlalu lama untuk memproses permintaan, jadi nginx mengembalikan 504, bukan?
Jadi, nampaknya pemprosesan bahagian pelayan mengambil masa terlalu lama, yang boleh menyebabkan klien memutuskan sambungan 499 secara aktif atau nginx untuk mengembalikan Gateway Timeout 504. Jadi apakah faktor utama yang membawa kepada perbezaan ini?
Ringkasnya, jika pelanggan memutuskan sambungan dahulu dan dikesan oleh nginx, ia akan menjadi 499. Jika huluan mengambil masa terlalu lama dan tamat masa pertama kali ditentukan oleh nginx, ia akan menjadi 504. Jadi kuncinya ialah masa nginx tetapan untuk tamat masa hulu Klik di sini saya dengan cepat melihat konfigurasi nginx yang berkaitan dengan masa yang berkaitan tidak dikonfigurasikan secara jelas

Konfigurasi tamat masa berkaitan penentuan 504 dalam nginx

Memandangkan api dan nginx berkomunikasi melalui protokol uwsgi, parameter konfigurasi tamat masa utama adalah seperti berikut:

Syntax:	uwsgi_connect_timeout time;
Default:	
uwsgi_connect_timeout 60s;
Context:	http, server, location
Defines a timeout for establishing a connection with a uwsgi server. It should be noted that this timeout cannot usually exceed 75 seconds.
Syntax:	uwsgi_send_timeout time;
Default:	
uwsgi_send_timeout 60s;
Context:	http, server, location
Sets a timeout for transmitting a request to the uwsgi server. The timeout is set only between two successive write operations, not for the transmission of the whole request. If the uwsgi server does not receive anything within this time, the connection is closed.
Syntax:	uwsgi_read_timeout time;
Default:	
uwsgi_read_timeout 60s;
Context:	http, server, location
Defines a timeout for reading a response from the uwsgi server. The timeout is set only between two successive read operations, not for the transmission of the whole response. If the uwsgi server does not transmit anything within this time, the connection is closed.

在未明确指定的情况下其超时时间均默认为60s，简单来说（实际情况更复杂一些但这里不进一步探讨）只有在upstream处理请求耗时超过60s的情况下nginx才能判定其Gateway Timeout 并按照504处理，然而客户端设置的HTTP请求超时时间其实只有15s--这其中还包括外网数据传输的时间，于是问题来了：每一个服务端处理耗时超过15s的请求，nginx由于还没达到60s的超时阈值不会判定504，而客户端则会由于超过本地的15s超时时间直接断开连接，nginx于是就会记录为499。
通过回查nginx log，非高峰期的499告警时段确实是存在单台upstream 请求处理缓慢，耗时过长，于是可能导致：

用户在需要block等待请求的页面等待虽然不到15s但是已经不耐烦了，直接采取切页面或者杀死app重启的方式结束当前请求。
用户耐心等待了15s、或者非阻塞的后台HTTP请求超过了15s超过超时阈值主动断开连接结束了当前请求。

服务端耗时过长导致的499

上面已经知道近期新出现的单台upstream 偶发499是由于响应缓慢引起的，既然是由于客户端超时时间(15s)远小于nginx upstream超时时间(60s)引起的，这应该属于一个明显的配置不当，会导致三个明显的问题：

将用户由于各种原因(如杀app)很快主动断开连接导致的499与客户端达到超时时间(这里是15s)导致的499混在了一起，无法区分客户端责任与服务端责任导致499问题。
对于nginx判定为499的请求，由于认为是客户端主动断开，不会被认为是服务端导致的unsuccessful attempt而被计入用于failover判定的max_fails计数中，所以即便一个upstream大量触发了499，nginx都不会将其从可用upstream中摘除，相当于摘除不可用节点的功能失效，而由于负载过高导致499的upstream收到的请求依然不断增加最终可能导致更大的问题。
对于判定为499的请求，也是由于不会被认为是unsuccessful attempt，所以uwsgi_next_upstream这一配置也不会work，于是当第一个处理请求的upstream耗时过长超时后，nginx不会尝试将其请求转发为下一个upstream尝试处理后返回，只能直接失败。

那是不是把客户端超时时间调大？或者把nginx upstream超时时间调小解决呢？
调大客户端超时时间当然是不合理的，任何用户请求15s还未收到响应肯定是有问题的，所以正确的做法应该是调小upstream的超时时间，一般来说服务端对于客户端请求处理时间应该都是在数十、数百ms之间，超过1s就已经属于超长请求了，所以不但默认的60s不行，客户端设置的15s也不能用于upstream的超时判定。
最终经过综合考虑服务端各api的耗时情况，先敲定了一个upstream 5s的超时时间配置--由于之前没有经验首次修改步子不迈太大，观察一段时间后继续调整，这样做已经足以很大程度解决以上的3个问题：

将用户由于各种原因(如杀app)很快主动断开连接导致的499与nginx达到upstream超时时间时主动结束的504区分开了。
504会被纳入max_fails计算，触发nginx摘除失败节点逻辑，在单台机器故障响应缓慢时可以被识别出来暂时摘除出可用节点列表，防止其负载进一步加大并保证后续请求均被正常可用节点处理返回。
当nginx等待upstream处理达到5s触发超时时，其会按照uwsgi_next_upstream配置尝试将请求(默认仅限幂等的GET请求)转交给下一个upstream尝试处理后返回，这样在单一upstream由于异常负载较高超时时，其他正常的upstream可以作为backup兜底处理其超时请求，这里客户端原本等待15s超时的请求一般在5~10s内可以兜底返回。

通过proxy_ignore_client_abort配置解决499问题？

在网上查找资料时还有网友提出解除nginx 499问题的一个思路是设置proxy_ignore_client_abort参数，该参数默认为off，将其设置为on 后，对于客户端主动断开请求的情况，nginx会ignore而以upstream实际返回的状态为准，nginx官方文档说明如下：

Syntax:	proxy_ignore_client_abort on | off;
Default:	
proxy_ignore_client_abort off;
Context:	http, server, location
Determines whether the connection with a proxied server should be closed when a client closes the connection without waiting for a response.

但是在客户端主动断开连接时，设置这个参数的意义除了使nginx log中记录的状态码完全按照upstream返回确定，而非表示客户端断连的499之外，对于实际问题解决完全没有任何帮助，感觉颇有把头埋进沙子的鸵鸟风格，不知道这个参数设置到底会有什么实用的场景。

Sebab mengapa satu huluan kadangkala bertindak balas dengan perlahan dan masa tamat semasa tempoh bukan puncak

Ini adalah soalan yang bagus. Masalah ini hanya muncul baru-baru ini selepas menyelesaikan masalah yang tidak sepadan masalah yang dinyatakan di atas, berdasarkan fenomena tersebut, permintaan khusus tertentu sepatutnya mencetuskan lonjakan CPU stim, dan tindak balas yang perlahan menjejaskan pemprosesan permintaan berikutnya, akhirnya menyebabkan semua permintaan bertindak balas dengan perlahan dan mencetuskan klien 499.
Selepas masalah ketidakpadanan nginx diselesaikan, jika tamat masa yang perlahan bagi satu huluan berlaku lagi, nginx akan dengan cepat mengalih keluar masalah di hulu melalui failover untuk mengelakkan kemerosotan lagi keadaan, dan permintaan GET untuk masalah akses pertama tamat masa hulu akan juga Sandaran akan dimajukan ke huluan lain yang tersedia untuk diproses dan kemudian dikembalikan, yang telah mengurangkan kesan pengecualian tersebut.
Akhir sekali, selepas membetulkan konfigurasi, pengecualian sekali-sekala dalam satu huluan akan mencetuskan sebilangan kecil penggera ambang 504 untuk beberapa API POST sekali setiap beberapa hari Punca masalah masih diterokai.

Atas ialah kandungan terperinci Bagaimana untuk menyelesaikan masalah 499 dan kegagalan mekanisme failover yang disebabkan oleh konfigurasi nginx yang tidak betul. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan

Artikel ini dikembalikan pada:亿速云. Jika ada pelanggaran, sila hubungi admin@php.cn Padam

Artikel Berkaitan

内存飙升！记一次nginx拦截爬虫Mar 30, 2023 pm 04:35 PM

本篇文章给大家带来了关于nginx的相关知识，其中主要介绍了nginx拦截爬虫相关的，感兴趣的朋友下面一起来看一下吧，希望对大家有帮助。

nginx限流模块源码分析May 11, 2023 pm 06:16 PM

高并发系统有三把利器：缓存、降级和限流；限流的目的是通过对并发访问/请求进行限速来保护系统，一旦达到限制速率则可以拒绝服务（定向到错误页）、排队等待（秒杀）、降级（返回兜底数据或默认数据）；高并发系统常见的限流有：限制总并发数（数据库连接池）、限制瞬时并发数（如nginx的limit_conn模块，用来限制瞬时并发连接数）、限制时间窗口内的平均速率（nginx的limit_req模块，用来限制每秒的平均速率）；另外还可以根据网络连接数、网络流量、cpu或内存负载等来限流。1.限流算法最简单粗暴的

nginx+rsync+inotify怎么配置实现负载均衡May 11, 2023 pm 03:37 PM

实验环境前端nginx：ip192.168.6.242，对后端的wordpress网站做反向代理实现复杂均衡后端nginx：ip192.168.6.36，192.168.6.205都部署wordpress，并使用相同的数据库1、在后端的两个wordpress上配置rsync+inotify，两服务器都开启rsync服务，并且通过inotify分别向对方同步数据下面配置192.168.6.205这台服务器vim/etc/rsyncd.confuid=nginxgid=nginxport=873ho

nginx php403错误怎么解决Nov 23, 2022 am 09:59 AM

nginx php403错误的解决办法：1、修改文件权限或开启selinux；2、修改php-fpm.conf，加入需要的文件扩展名；3、修改php.ini内容为“cgi.fix_pathinfo = 0”；4、重启php-fpm即可。

如何解决跨域？常见解决方案浅析Apr 25, 2023 pm 07:57 PM

跨域是开发中经常会遇到的一个场景，也是面试中经常会讨论的一个问题。掌握常见的跨域解决方案及其背后的原理，不仅可以提高我们的开发效率，还能在面试中表现的更加

nginx部署react刷新404怎么办Jan 03, 2023 pm 01:41 PM

nginx部署react刷新404的解决办法：1、修改Nginx配置为“server {listen 80;server_name https://www.xxx.com;location / {root xxx;index index.html index.htm;...}”；2、刷新路由，按当前路径去nginx加载页面即可。

nginx怎么禁止访问phpNov 22, 2022 am 09:52 AM

nginx禁止访问php的方法：1、配置nginx，禁止解析指定目录下的指定程序；2、将“location ~^/images/.*\.(php|php5|sh|pl|py)${deny all...}”语句放置在server标签内即可。

Linux系统下如何为Nginx安装多版本PHPMay 11, 2023 pm 07:34 PM

linux版本：64位centos6.4nginx版本：nginx1.8.0php版本：php5.5.28&php5.4.44注意假如php5.5是主版本已经安装在/usr/local/php目录下，那么再安装其他版本的php再指定不同安装目录即可。安装php#wgethttp://cn2.php.net/get/php-5.4.44.tar.gz/from/this/mirror#tarzxvfphp-5.4.44.tar.gz#cdphp-5.4.44#./configure--pr

See all articles

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang laluBy尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang laluByDDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang laluByDDD

Tunjukkan Lagi

Alat panas

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

DVWA

Damn Vulnerable Web App (DVWA) ialah aplikasi web PHP/MySQL yang sangat terdedah. Matlamat utamanya adalah untuk menjadi bantuan bagi profesional keselamatan untuk menguji kemahiran dan alatan mereka dalam persekitaran undang-undang, untuk membantu pembangun web lebih memahami proses mengamankan aplikasi web, dan untuk membantu guru/pelajar mengajar/belajar dalam persekitaran bilik darjah Aplikasi web keselamatan. Matlamat DVWA adalah untuk mempraktikkan beberapa kelemahan web yang paling biasa melalui antara muka yang mudah dan mudah, dengan pelbagai tahap kesukaran. Sila ambil perhatian bahawa perisian ini

SecLists

SecLists ialah rakan penguji keselamatan muktamad. Ia ialah koleksi pelbagai jenis senarai yang kerap digunakan semasa penilaian keselamatan, semuanya di satu tempat. SecLists membantu menjadikan ujian keselamatan lebih cekap dan produktif dengan menyediakan semua senarai yang mungkin diperlukan oleh penguji keselamatan dengan mudah. Jenis senarai termasuk nama pengguna, kata laluan, URL, muatan kabur, corak data sensitif, cangkerang web dan banyak lagi. Penguji hanya boleh menarik repositori ini ke mesin ujian baharu dan dia akan mempunyai akses kepada setiap jenis senarai yang dia perlukan.