یکی از ابزارهای بخش جدیدی که گفتم رو به اسم اعتبارسنج صفحات وب فارسی به صورت موقت آماده کردم.
این ابزار صفحات وب فارسی رو از نظر صحیح بودن نوع کدگذاری (Content Encoding) و کاربرد نویسههای غیر فارسی بررسی میکنه. توجه داشته باشید که این ابزار در مرحله آزمایشی قرار داره و ممکنه با بعضی صفحات مشکلاتی داشته باشه. لطفاً این مشکلات و هر مورد دیگری که هنگام کار کردن با این ابزار مشاهده میکنید رو اطلاع بدید.
با استفاده از این ابزار چند تا سایت فارسی رو بررسی کنین تا شما هم متوجه بشین که اوضاع چقدر خرابه.
نظرات:
04:47
10:08
من چندتا صفحه رو چک کردم. تمام صفحاتی که با وردپرس بودند تائید شدند و البته مامبو و جوملا از نظر نویسه مشکل داشتند.
فکر کنم ساختار این سیستم هم یکی بر پایه یونیکد و دیگری به جستجوی نویسههای غیر فارسی باشه!
میشه توضیحات بیشتری راجع به سیستم بررسی صفحات بدید؟ { مهدی }
10:14
واقعاْ اوضاع خرابه!!! { مهدی }
10:20
خسته نباشی { محمدرضا }
11:05
سایتهایی را هم که در آن کلمات عربی مثل قرآن و حدیث به کار رفته هم در نظر بگیرد.
روی هم رفته دستتان درد نکند. { افشار }
12:01
نکته دیگر اینکه اگر دوستان بررسی کنن که مشکل از چیدمان کیبردشون یا نه؟ و اگر میتوانند بررسی کنند که چه برنامهای این کیبرد را بر روی سیستم نصب میکنه؟
در مورد تبلیغ هم فکر میکنم بهترین گزینه خود شما دوستان باشید که در وبلاگهای خودتون این مورد توضیح بدید تا دیگر سایتها در جهت اصلاح این مورد اقدام کنند. { حسین }
10:44
10:47
10:55
11:22
و اینکه یه فرمت مشخص درست بشه برا استفاده تو وبلاگهایی که میخوان پشتیبانی کنن، خیلی خوبه، من توی وبلاگم یه نمونه گذاشتم { محمدرضا }
11:30
11:39
15:27
سلام،
۱- دقیقا در سه نوشته زیر راجع به خود کاراکترهای عربی «ی» و «ک» حرف زدهام و میخواستهام خود آنها را نشان داده و معرفی کنم. نتیجه اینکه استفاده از آنها به این منظور نباید به عنوان یک اشتباه قلمداد گردد.
http://afsharm.blogspot.com/2008/12/blog-post.html
http://afsharm.blogspot.com/2008/08/blog-post.html
http://afsharm.blogspot.com/2008/06/blog-post.html
۲- یک مشکلی در دیدن آخرین کامنت شما دارم. ظاهرا کاراکتر نیم فاصلهای که شما استفاده کردید یک ایرادی دارد. چون کاراکتر آن در مرورگر من (فایر فاکس) قابل دیدن نیست. عکسش را در آدرس زیر گذاشتهام:
http://i43.tinypic.com/x5zfhj.gif
من این کد عجیب را با استفاده از ابزار کوچک خودم «فردیس»، بررسی کردم و دیدم که کاراکتر استفاده شده به جای نیم فاصله، کاراکتر U+009D است در حالی که کد کاراکتر نیم فاصله «ZERO WIDTH NON-JOINER» برابر U+200C است. به شکل زیر دقت کنید:
http://i41.tinypic.com/219w2yx.gif { افشار }
15:28
۳- ظاهرا در بلاگ شما حروف عربی به طور خودکار به معادل فارسیشان تبدیل میشود. مثلا من کامنت قبلی خودم به عمد از حروف عربی «ی» و «ک» استفاده کرده بودم تا غلط بودنشان را نشان دهم ولی تبدیل به «ی» و «ک» فارسی شدهاند.
۴- در مورد کلمه «مقالهای» که در کامنتتان اشاره کردهاید فقط یک «ی» فارسی با کد U+06CC استفاده شده است و چیز عربی وجود ندارد. در مورد کلمه «کوئری» از علامت «ئ» استفاده کردهام که در کلمات فارسی دیگری مثل «مسئول» هم کاربرد دارد و طبق استاندارد ۶۲۱۹ سازمان استاندارد مجاز است.
۵- من یک ابزار خیلی کوچولو در «کدپلکس» گذاشتهام که در چنین مواقعی کاربرد دارد. با آن میشود فهمید اسم یونیکدی و کد یونیکدی به کار رفته در کلمات فارسی چیست. استاندارد بودن صفحه کلید را هم میشود تا اندازهای با آن فهمید. اسم این ابزار «فردیس» است و در آدرس زیر قرار دارد:
http://fardis.codeplex.com/
البته این پروژه کدباز راه زیادی در پیش دارد که انشاا.. با کمک شما زودتر به هدفش خواهد رسید. { افشار }
10:25
1- همونطور که قبلا هم گفتم راهی برای تشخیص دادن استفاده عمدی و غیرعمدی این نویسهها وجود ندارد. اگر شما پیشنهادی برای حل این مسئله دارید خوشحال میشوم بشنوم.
2- مشغول بررسی علت این مورد هستیم.
3- بله. این کار در کل سایت انجام میشود.
4- منظور حسین این مطلب شما بود: http://afsharm.blogspot.com/2008/06/sql-recursive-queries.html
5- این ابزار را حتماً در بخش مربوطه قرار خواهم داد. ممنون. { سهیل }
13:04
اگه کم کم یک سری وبسایت یا وبلاگ همین اعتبارسنج صفحات وب فارسی رو تو سایتهاشون قرار بدن، فکر کنم تو دراز مدت فراگیر بشه. { سهیل رکن شریفی }