جستجو برای:
  • صفحه نخست
  • دوره های آموزشی
  • مطالب آموزشی
    • Power BI
    • Power Query
    • DAX
    • Microsoft Excel
    • SQL
    • SQL Server Analysis Services (SSAS)
    • SQL Server Integration Services (SSIS)
    • SQL Server Reporting Services (SSRS)
  • دانلودهاب
    • دانلود E-book های تحلیل داده و هوش تجاری
    • دانلود ویژوال های Power BI
    • دانلود فایل نقشه SVG
    • دانلود دیتاست
  • ارتباط با ما
 
تحلیل داده | هوش تجاری | آموزش Power BI
  • صفحه نخست
  • دوره های آموزشی
  • مطالب آموزشی
    • Power BI
    • Power Query
    • DAX
    • Microsoft Excel
    • SQL
    • SQL Server Analysis Services (SSAS)
    • SQL Server Integration Services (SSIS)
    • SQL Server Reporting Services (SSRS)
  • دانلودهاب
    • دانلود E-book های تحلیل داده و هوش تجاری
    • دانلود ویژوال های Power BI
    • دانلود فایل نقشه SVG
    • دانلود دیتاست
  • ارتباط با ما
0

ورود و ثبت نام

مطالب آموزشی

تحلیل داده | هوش تجاری | آموزش Power BIمطالب آموزشیSQL Server Integration Services (SSIS)تسک Data Profiling در SSIS

تسک Data Profiling در SSIS

اردیبهشت 16, 1404
ارسال شده توسط Banafsheh
SQL Server Integration Services (SSIS)
26 بازدید

تسک Data Profiling در SSIS برای محاسبه پروفایل‌های مختلفی استفاده می‌شود که به ما کمک می‌کند تا با منبع داده آشنا شویم و مشکلات موجود در داده‌ها (در صورت وجود) را شناسایی کنیم که باید اصلاح شوند. در اینجا نحوه پروفایل‌سازی داده‌های منبع با استفاده از این تسک SSIS با یک مثال نشان داده می‌شود.

تسک Data Profiling در SSIS فقط با SQL Server کار می‌کند. بنابراین، تسک Data Profiling از داده‌ها در سیستم فایل یا هر شخص ثالثی پشتیبانی نمی‌کند.

مثال تسک Data Profiling در SSIS
تسک Data Profiling در SSIS را به ناحیه Control Flow بکشید و رها کنید، همانطور که در زیر نشان داده شده است.

SSIS35

دوبار کلیک کردن روی آن، ویرایشگر تسک Data Profiling را برای پیکربندی آن باز می‌کند.

Time-out (بر حسب ثانیه): لطفاً زمان تایم‌اوت اتصال را بر حسب ثانیه مشخص کنید. اگر اتصال بیشتر از این زمان طول بکشد، اتصال شکست خواهد خورد.
OverwriteDestination: این ویژگی تسک Data Profiling در SSIS دو گزینه دارد: True و False. اگر این ویژگی را روی True تنظیم کنیم، تسک File System فایل‌های موجود در مسیر مقصد را بازنویسی خواهد کرد.
Open Profile Viewer: این دکمه داده‌های پروفایل‌سازی را پس از اجرای بسته سرویس یکپارچگی نمایش می‌دهد.

SSIS36

DestinationType: این ویژگی تسک Data Profiling در SSIS دو گزینه دارد: File Connection و Variable. اگر این متغیر را روی True تنظیم کنیم، داده‌های مقصد در یک متغیر ذخیره خواهند شد. اگر آن را روی File Connection قرار دهیم، لطفاً فایل مقصد را به‌طور دستی با استفاده از File Connection Manager انتخاب کنید.

هنگامی که DestinationType را روی File Connection تنظیم می‌کنید، باید اتصال مقصد را با استفاده از ویژگی Destination پیکربندی کنید. اگر قبلاً File Connection Manager را ایجاد کرده‌اید، آن را از فهرست کشویی انتخاب کنید.

اگر قبلاً هیچ Connection Manager ایجاد نکرده‌اید، باید یک اتصال جدید با انتخاب <New Connection..> ایجاد کنید.

SSIS37

پس از کلیک بر روی گزینه <New Connection..>، ویرایشگر File Connection Manager برای پیکربندی اتصال مقصد باز خواهد شد.

اگر فایل‌های تسک Data Profiling در SSIS موجود دارید، گزینه Existing File را از نوع استفاده انتخاب کنید. در غیر این صورت، گزینه Create File را انتخاب کرده و دکمه Browse را برای انتخاب فایل موجود از سیستم فایل یا ایجاد یک فایل جدید کلیک کنید.

SSIS38

از تصویر بالا، می‌توانید مشاهده کنید که ما فایل ProductsProfiling.xml را داخل پوشه مقصد ایجاد کرده‌ایم.

SSIS39

برای اتمام پیکربندی اتصال منبع، روی OK کلیک کنید. اگر در درک این موضوع مشکل دارید، لطفاً به مقاله File Connection Manager مراجعه کنید.

SSIS40

تسک Data Profiling هشت نوع مختلف را محاسبه می‌کند.

جدول زیر فهرستی از انواع موجود در تسک Data Profiling در SSIS و توضیحات آن‌ها را نمایش می‌دهد.

تسک Data Profiling در SSISتوضیحات
Candidate Key Profileاین تسک پروفایل داده، درصد مقادیر Null در یک ستون را گزارش می‌دهد. این برای بررسی اینکه کدام ستون بیشترین مقادیر Null را دارد مفید است (برای تحلیل داده‌ها).
Column Length Distributionاین تسک گزارش می‌دهد که مقادیر در ستون وابسته چقدر به مقادیر در ستون تعیین‌کننده وابسته هستند (ممکن است یک ستون یا مجموعه‌ای از ستون‌ها باشد). این برای شناسایی معتبر بودن داده‌های ستون مفید است. به عنوان مثال، اگر وابستگی بین ستونی که کدپستی هند را در بر دارد و ستون‌هایی که ایالت‌های هند را در بر دارند پروفایل کنید، داده‌های شما نادرست خواهد بود اگر وابستگی شما چندین ایالت را برای یک کدپست پیدا کند.
Column Null Ratioاین تسک پروفایل داده، درصد مقادیر Null در یک ستون را گزارش می‌دهد. این برای بررسی اینکه کدام ستون بیشترین مقادیر Null را دارد مفید است (برای تحلیل داده‌ها).
Column Patternاین تسک مجموعه‌ای از RegExp (عبارات منظم) را که درصد مشخصی از مقادیر در یک ستون رشته‌ای را پوشش می‌دهند، گزارش می‌دهد.
Column Statisticsاین پروفایل تسک Data Profiling در SSIS، آمارهایی مانند کمترین مقدار، بیشترین مقدار، میانگین و انحراف استاندارد برای هر ستون عددی، و کمترین و بیشترین مقدار برای ستون‌های تاریخ‌زمان را گزارش می‌دهد. برای بررسی اینکه آیا ستون تاریخ داده‌های صحیحی را نگه می‌دارد یا خیر مفید است.
Column Value Distributionتمام مقادیر متمایز موجود در ستون انتخابی را گزارش می‌دهد و درصد ردیف‌های هر مقدار را نشان می‌دهد. این برای شناسایی معتبر بودن داده‌های ستون مفید است. به عنوان مثال، اگر ستون شما قرار است ایالت‌های ایالات متحده را ذخیره کند و شما بیشتر از 50 ایالت پیدا کنید، داده‌های شما نادرست است.
Functional Dependencyاین تسک گزارش می‌دهد که مقادیر در ستون وابسته چقدر به مقادیر در ستون تعیین‌کننده وابسته هستند (ممکن است یک ستون یا مجموعه‌ای از ستون‌ها باشد). این برای شناسایی معتبر بودن داده‌های ستون مفید است. به عنوان مثال، اگر وابستگی بین ستونی که کدپستی هند را در بر دارد و ستون‌هایی که ایالت‌های هند را در بر دارند پروفایل کنید، داده‌های شما نادرست خواهد بود اگر وابستگی شما چندین ایالت را برای یک کدپست پیدا کند.
Value Inclusionاین پروفایل مقادیر هم‌پوشانی بین دو ستون یا دو مجموعه از ستون‌ها را محاسبه می‌کند. ابتدا شناسایی می‌کند که آیا ستون برای استفاده به عنوان کلید خارجی بین دو ستون مناسب است یا خیر.
SSIS41

لطفاً به تب General تسک Data Profiling در SSIS بروید. سپس، روی دکمه Quick Profile کلیک کنید تا یک پروفایل جدید ایجاد کنید.

SSIS42

پس از کلیک روی دکمه، یک پنجره جدید به نام Single Table Form باز می‌شود. روی دکمه جدید کلیک کنید و پنجره Connection Manager دیگری باز خواهد شد تا Provider، نام سرور و نام پایگاه داده را انتخاب کنید. اگر قبلاً هرگونه connection manager ایجاد کرده‌اید، آن‌ها را از فهرست کشویی انتخاب کنید.

در اینجا، ما اتصال ADO.NET ایجاد شده قبلی را انتخاب می‌کنیم. در اینجا، ما جدول SQL DimProduct را انتخاب می‌کنیم.

SSIS43

تصویر بالا نشان می‌دهد که ما از حساب کاربری Windows لوکال هاست خود به عنوان نام سرور استفاده می‌کنیم. سپس، [AdventureWorksDW2014] نام پایگاه داده است.

در زمان واقعی، باید گزینه Use SQL Server Authentication را انتخاب کرده و اعتبارنامه‌های معتبر که مدیر سیستم شما ارائه داده را وارد کنید. در اینجا، ما تمام گزینه‌های موجود را انتخاب می‌کنیم.

SSIS44

پس از کلیک روی دکمه OK، ویرایشگر تسک Data Profiling در SSIS به تب Profile Requests منتقل خواهد شد.

SSIS45

روی OK کلیک کنید تا پیکربندی تکمیل شده و ویرایشگر تسک Data Profiling بسته شود. اکنون بیایید بسته را اجرا کرده و نتیجه را مشاهده کنیم.

SSIS46

همان‌طور که در اسکرین‌شات بالا نشان داده شده است، بسته تسک Data Profiling در SSIS با موفقیت اجرا شده است. برای مشاهده خروجی تولیدشده توسط این تسک، به ابزار Data Profile Viewer نیاز داریم.

لطفاً از نوار جستجو استفاده کرده و عبارت Data Profile Viewer را تایپ کنید، یا به مسیر زیر بروید:
C:\ProgramData\Microsoft\Windows\Start Menu\Programs\Microsoft SQL Server 2014\Integration Services

با دوبار کلیک روی Data Profile Viewer، پنجره‌ای مانند زیر باز خواهد شد.

برای مشاهده خروجی، لطفاً روی Open folder کلیک کرده و فایل XML را که تسک Data Profiling تولید کرده انتخاب نمایید.

SSIS47

اسکرین‌شات زیر فهرستی را نشان می‌دهد که هنگام پیکربندی بسته تسک Data Profiling در SSIS انتخاب کرده‌ایم.

Candidate Key Profiles: این گزینه گزارش می‌دهد که آیا یک ستون یا مجموعه‌ای از ستون‌ها، کلید تقریبی یا کلید اصلی برای داده‌های انتخاب‌شده هستند یا نه. در جدول انتخاب‌شده ما (DimProducts)، ستون ProductKey به عنوان ستون کلید شناسایی شده است. قدرت کلید آن ۱۰۰٪ است، که به این معنی است که داده معتبر است.

SSIS48

Column Length Distribution: این گزارش از تسک Data Profiling در SSIS شامل دو بخش است:

  • Column Length Distribution: این بخش کمترین و بیشترین طول هر ستون را در جدول انتخاب‌شده نمایش می‌دهد.

  • Length Distribution: این بخش تمام طول‌های متفاوت رشته‌ای موجود در ستون‌های انتخاب‌شده را همراه با درصد ردیف‌هایی که همان طول را دارند، گزارش می‌دهد.

در اینجا، ما ستون Arabic Description را انتخاب کرده‌ایم. همان‌طور که مشاهده می‌کنید، این ستون دارای طول‌های متمایز ۱۷، ۱۸، ۱۹ … است، و طول‌های ۱۹ و ۲۲ درصد بالاتری از داده‌ها را در بر می‌گیرند. این به این معناست که هنگام انتقال داده، می‌توانیم طول رشته مقصد را به جای ۲۵۵، مقدار ۲۵ در نظر بگیریم.

SSIS49

Data Profiling Task – Column Null Ratio Profiles: این پروفایل درصد مقادیر Null موجود در هر ستون را گزارش می‌دهد. تصویر زیر نشان می‌دهد که ستون End Date بالاترین درصد مقادیر NULL را دارد. ستون‌هایی مانند Color، Days to Manufacture، English Product Name، French Product Name، Product Key، Product Alternate Key، Photo و Finished Good Flag هیچ مقدار Null ندارند.

SSIS50

Column Statistic Profiles: این پروفایل آمارهایی مانند کمترین مقدار (Minimum Value)، بیشترین مقدار (Maximum Value)، میانگین (Mean) و انحراف معیار (Standard Deviation) را برای هر ستون عددی گزارش می‌دهد. همچنین، برای ستون‌های از نوع Datetime، فقط کمترین و بیشترین مقدار گزارش می‌شود.

SSIS51

Column Value Distribution: این گزارش از تسک Data Profiling در SSIS شامل دو بخش است:

  • Column Value Distribution: تعداد مقادیر متمایز (Distinct Values) در هر ستون از جدول انتخاب‌شده را نمایش می‌دهد.

  • Frequent Value Distribution: تمام مقادیر متمایز در ستون‌های انتخاب‌شده و درصد ردیف‌هایی که همان مقدار را دارند، گزارش می‌دهد.

در اسکرین‌شات زیر، مشاهده می‌کنید که ما ستون Color را انتخاب کرده‌ایم، که دارای ۱۰ مقدار متمایز است. مقدار NA بیشترین درصد را دارد، و بعد از آن مقدار Black قرار دارد.

SSIS52

Functional Dependency: این گزارش میزان وابستگی مقادیر ستون وابسته (Dependent Column) به مقادیر ستون تعیین‌کننده (Determinant Column) را نشان می‌دهد. ستون تعیین‌کننده می‌تواند یک ستون یا مجموعه‌ای از ستون‌ها باشد. این تحلیل برای شناسایی صحت و انسجام داده‌ها بسیار کاربردی است.

SSIS53
اشتراک گذاری:
برچسب ها: آموزش SSIS
در تلگرام
کانال ما را دنبال کنید!
در اینستاگرام
ما را دنبال کنید!
در یوتوب
ما را دنبال کنید!
Created by potrace 1.14, written by Peter Selinger 2001-2017
در آپارات
ما را دنبال کنید!

مطالب زیر را حتما مطالعه کنید

SQL-Server-Integration-Services-SSIS
بارگذاری افزایشی در SSIS (Incremental Load in SSIS)
SQL-Server-Integration-Services-SSIS
توابع SSIS (SSIS Functions)
SQL-Server-Integration-Services-SSIS
تکنیک‌های بهینه‌سازی عملکرد در پروژه‌های SSIS
SQL-Server-Integration-Services-SSIS
پارامترهای پروژه SSIS در برابر پارامترهای بسته SSIS
SQL-Server-Integration-Services-SSIS
مدیریت خطا در SSIS
SQL-Server-Integration-Services-SSIS
استقرار بسته SSIS با استفاده از SQL Server

دیدگاهتان را بنویسید لغو پاسخ

جستجو برای:
دسته‌ها
  • DAX
  • Microsoft Excel
  • Power BI
  • Power Query
  • SQL
  • SQL Server Analysis Services (SSAS)
  • SQL Server Integration Services (SSIS)
  • SQL Server Reporting Services (SSRS)
  • آموزش های متنی
  • آموزش های ویدئویی
  • تحلیل داده
  • هوش تجاری
نوشته‌های تازه
  • CTE در SQL Server چیست؟
  • دستور Bulk Insert در SQL Server برای وارد کردن حجم بالای داده‌ها
  • دستور SQL TRUNCATE TABLE – حذف سریع داده‌ها با حفظ ساختار جدول
  • دستور SQL SELECT INTO — ایجاد جدول جدید از داده‌های موجود
  • SELECT DISTINCT در SQL با مثال‌های کاربردی و توضیح ساده
درباره مجموعه تحلیل داده

باور داریم که تحلیل داده یک مهارت کلیدی برای موفقیت در دنیای امروز است و می‌خواهیم شما را در این مسیر راهنمایی کنیم. اگر آماده‌اید که با داده‌ها تصمیمات هوشمندانه‌تری بگیرید، از همین حالا یادگیری را شروع کنید.

  • تهران، جنت آباد جنوبی خیابان ایثارگران
  • 09102315004
  • info@tahliledadeh.com
آخرین مطالب
  • CTE در SQL Server چیست؟
  • دستور Bulk Insert در SQL Server برای وارد کردن حجم بالای داده‌ها
  • دستور SQL TRUNCATE TABLE – حذف سریع داده‌ها با حفظ ساختار جدول
برچسب‌ها
آموزش DAX آموزش Excel آموزش Power BI آموزش Power Query آموزش SQL آموزش SSAS آموزش SSIS آموزش SSRS تحلیل داده هوش تجاری
پرداخت ایمن
ایکون اینماد

ورود

رمز عبور را فراموش کرده اید؟

هنوز عضو نشده اید؟ عضویت در سایت