مشکل کدهای حروف فارسی در اینترنت!
ساعت ٩:٠٥ ‎ب.ظ روز ۱۳۸٧/٥/۱۸  

به این دو کلمه نگاه کنید:

ایران
ایران

ظاهراً این دو کلمه کاملاً یکسان هستند. اما اگه اونها را جداگانه کپی و تو صفحات جداگانه در گوگل جستجو کنید نتایج متفاوتی خواهید گرفت. احتمالاً شما هم به دلیل کار کردن با نرم افزار word مایکروسافت با دو شکل متفاوت "ی" و "ی" آشنایید اما متاسفانه این مشکل به حرف "ی" محدود نمیشه. به عنوان مثال اگه به این آدرس برید

http://www.farsnews.net/newstext.php?nn=8705160076

با خبر زیر مواجه میشید که سه بار کلمه "کردستان" توش تکرار شده. اما اگه کلمه "کردستان" رو توش جستجو کنید یا فقط کلمه بالا رو پیدا میکنید یا دو تا کلمه پایین رو.

 

علت این امر یونی کدهای (unicode) متفاوتی است که به برخی از حروف نظیر حروف "ی" و "ک" نسبت داده شده. غالب نمایشگرها میدونن که برای این دو کد باید شکل یکسانی رو نمایش بدن اما در عمل این دو حرف با کدهای متفاوتی ذخیره میشن. هر چند بعضی از سایت های جستجو تا حدودی این تفاوت رو در نظر میگیرن اما بازهم جستجوها تا حد زیادی متاثر از این تفاوت کد حروفه و برای یه جستجوی کامل باید حتماً از هر دو شکل استفاده کنید که گاهی اوقات واقعاً آزاردهنده است.

متاسفانه سایت های ایرانی به این موضوع توجهی نمی کنند و در این زمینه استانداردسازی خاصی انجام نشده. همونطور که تو لینک بالا میبینید گاهی اوقات حتی تو یه صفحه دو شکل متفاوت از یک کلمه وجود داره.

 

امیدوارم مسئولین امر و یا حداقل جامعه اینترنتی ایرانی فکری برای رفع این مشکل بکنند.

اگه پیشنهادی برای پیگیری این مشکل داشتید لطفاً بگید.