یکی از ابزار‌های بخش جدیدی که گفتم رو به اسم اعتبارسنج صفحات وب فارسی به صورت موقت آماده کردم.


این ابزار صفحات وب فارسی رو از نظر صحیح بودن نوع کدگذاری (Content Encoding) و کاربرد نویسه‌های غیر فارسی بررسی می‌کنه. توجه داشته باشید که این ابزار در مرحله آزمایشی قرار داره و ممکنه با بعضی صفحات مشکلاتی داشته باشه. لطفاً این مشکلات و هر مورد دیگری که هنگام کار کردن با این ابزار مشاهده می‌کنید رو اطلاع بدید.


با استفاده از این ابزار چند تا سایت فارسی رو بررسی کنین تا شما هم متوجه بشین که اوضاع چقدر خرابه.

نظرات: Feed


88/2/1
04:47
برای راه اندازی اعتبار سنج صفحات وب فارسی بهتون تبریک میگم یک حرکت فوق العاده عالی بود برای وب فارسی. به نوبه خودم از شما برای این همه انرژی که برای انجام کار توسعه وب فارسی انجام میدین تشکر میکنم. :) { نیما }
88/2/1
10:08
سلام
من چند‌تا صفحه رو چک کردم. تمام صفحاتی که با وردپرس بودند تائید شدند و البته مامبو و جوملا از نظر نویسه مشکل داشتند.
فکر کنم ساختار این سیستم هم یکی بر پایه یونیکد و دیگری به جستجوی نویسه‌های غیر فارسی باشه!
می‌شه توضیحات بیشتری راجع به سیستم بررسی صفحات بدید؟ { مهدی }
88/2/1
10:14
دوباره سلام. اصلاْ متوجه نشدم تو متن همین پست مواردی رو که من با رنج و مشقت متوجه شدم رو قرار دادید!!! D:
واقعاْ اوضاع خرابه!!! { مهدی }
88/2/1
10:20
بسیار عالی
خسته نباشی { محمدرضا }
88/2/1
11:05
من وبلاگ خودم رو با این ابزار چک کردم. به «ی» و «ک»‌های عربی که در بلاگم بود گیر داد. من چند جا برای توضیح متنم عمدا از این حروف استفاده کردم نه بر حسب اشتباه.
سایت‌هایی را هم که در آن کلمات عربی مثل قرآن و حدیث به کار رفته هم در نظر بگیرد.
روی هم رفته دستتان درد نکند. { افشار }
88/2/1
12:01
سلام خدمت همه دوستان، آقای افشار خیلی خوب میشه اگر توضیح بدید که چرا از کاراکترهای عربی استفاده می‌کنید، مثلا مواردی مانند قرآن و حدیث درسته، ولی مواردی مثل "مقاله‌ای"، "کوئری" چرا شما از کاراکترهای عربی استفاده می‌کنید؟!

نکته دیگر اینکه اگر دوستان بررسی کنن که مشکل از چیدمان کیبردشون یا نه؟ و اگر می‌توانند بررسی کنند که چه برنامه‌ای این کیبرد را بر روی سیستم نصب می‌کنه؟

در مورد تبلیغ هم فکر میکنم بهترین گزینه خود شما دوستان باشید که در وبلاگ‌های خودتون این مورد توضیح بدید تا دیگر سایت‌ها در جهت اصلاح این مورد اقدام کنند. { حسین }
88/2/2
10:44
@نیما: ممنون. منتظر همکاری شما هستیم. { سهیل }
88/2/2
10:47
@مهدی: در این مورد، نرم‌افزارهای مدیریت محتوای نقشی در این مسئله ندارند. مشکل از شخصی که مطلب را می‌نویسد است. در مورد نحوه کار این سیستم بیشتر توضیح خواهم داد. ممنون. { سهیل }
88/2/2
10:55
@افشار: متاسفانه راهی برای تشخیص عمدی و یا غیر عمدی بودن استفاده از اینگونه نویسه‌ها وجود ندارد. ولی به زودی امکانی را به این ابزار اضافه خواهم کرد تا متن صفحه و کلمه‌های مورددار در خروجی نشان داده شوند. { سهیل }
88/2/2
11:22
این بخش رو در قسمت ابزارهای سایت لینک نمیدید؟

و اینکه یه فرمت مشخص درست بشه برا استفاده تو وبلاگهایی که میخوان پشتیبانی کنن، خیلی خوبه، من توی وبلاگم یه نمونه گذاشتم { محمدرضا }
88/2/2
11:30
@محمدرضا: ممنون. چون این ابزار در حال حاضر در مرحله آزمایش قرار داره تنها به معرفی در وبلاگ بسنده کردم. { سهیل }
88/2/2
11:39
شرمنده. مشکل کاراکتر نیم‌فاصله در کامت قبلی به این دلیل بود که مشغول بررسی چند چیدمان مختلف کیبورد بودم. { حسین }
88/2/2
15:27
دیروز کامنت من به دلیل طولانی بودن اجازه ورود به اینجا را پیدا نکرد. به همین دلیل آن را طی چند کامنت پشت سر هم می‌گذارم:

سلام،

۱- دقیقا در سه نوشته زیر راجع به خود کاراکترهای عربی «ی» و «ک» حرف زده‌ام و می‌خواسته‌ام خود آنها را نشان داده و معرفی کنم. نتیجه اینکه استفاده از آنها به این منظور نباید به عنوان یک اشتباه قلمداد گردد.
http://afsharm.blogspot.com/2008/12/blog-post.html
http://afsharm.blogspot.com/2008/08/blog-post.html
http://afsharm.blogspot.com/2008/06/blog-post.html

۲- یک مشکلی در دیدن آخرین کامنت شما دارم. ظاهرا کاراکتر نیم فاصله‌ای که شما استفاده کردید یک ایرادی دارد. چون کاراکتر آن در مرورگر من (فایر فاکس) قابل دیدن نیست. عکسش را در آدرس زیر گذاشته‌ام:
http://i43.tinypic.com/x5zfhj.gif
من این کد عجیب را با استفاده از ابزار کوچک خودم «فردیس»، بررسی کردم و دیدم که کاراکتر استفاده شده به جای نیم فاصله، کاراکتر U+009D است در حالی که کد کاراکتر نیم فاصله «ZERO WIDTH NON-JOINER» برابر U+200C است. به شکل زیر دقت کنید:
http://i41.tinypic.com/219w2yx.gif { افشار }
88/2/2
15:28
بخش دوم کامنت:


۳- ظاهرا در بلاگ شما حروف عربی به طور خودکار به معادل فارسی‌شان تبدیل می‌شود. مثلا من کامنت قبلی خودم به عمد از حروف عربی «ی» و «ک» استفاده کرده بودم تا غلط بودنشان را نشان دهم ولی تبدیل به «ی» و «ک» فارسی شده‌اند.

۴- در مورد کلمه «مقاله‌ای» که در کامنت‌تان اشاره کرده‌اید فقط یک «ی» فارسی با کد U+06CC استفاده شده است و چیز عربی وجود ندارد. در مورد کلمه «کوئری» از علامت «ئ‍» استفاده کرده‌ام که در کلمات فارسی دیگری مثل «مسئول» هم کاربرد دارد و طبق استاندارد ۶۲۱۹ سازمان استاندارد مجاز است.

۵- من یک ابزار خیلی کوچولو در «کدپلکس» گذاشته‌ام که در چنین مواقعی کاربرد دارد. با آن می‌شود فهمید اسم یونیکدی و کد یونیکدی به کار رفته در کلمات فارسی چیست. استاندارد بودن صفحه کلید را هم می‌شود تا اندازه‌ای با آن فهمید. اسم این ابزار «فردیس» است و در آدرس زیر قرار دارد:
http://fardis.codeplex.com/
البته این پروژه کدباز راه زیادی در پیش دارد که انشاا.. با کمک شما زودتر به هدفش خواهد رسید. { افشار }
88/2/3
10:25
@افشار:
1- همونطور که قبلا هم گفتم راهی برای تشخیص دادن استفاده عمدی و غیرعمدی این نویسه‌ها وجود ندارد. اگر شما پیشنهادی برای حل این مسئله دارید خوشحال می‌شوم بشنوم.

2- مشغول بررسی علت این مورد هستیم.

3- بله. این کار در کل سایت انجام می‌شود.

4- منظور حسین این مطلب شما بود: http://afsharm.blogspot.com/2008/06/sql-recursive-queries.html

5- این ابزار را حتماً در بخش مربوطه قرار خواهم داد. ممنون. { سهیل }
88/2/3
13:04
به نظر من برای درست شدن نوشتار زبان فارسی در صفحه‌های وب باید خیلی زیاد تبلیغ بشه، چاره‌ای دیگه‌ای نداره!

اگه کم کم یک سری وب‌سایت یا وبلاگ همین اعتبارسنج صفحات وب فارسی رو تو سایت‌هاشون قرار بدن، فکر کنم تو دراز مدت فراگیر بشه. { سهیل رکن شریفی }
نام:
سایت وب:
پست الکترونیک: (نشان داده نمی‌شود)
نظر: